爬虫作为一种计算机技术,具有技术中立性,爬虫技术在法律上从来没有被禁止。爬虫的发展历史可以追溯到 20 年前,搜索引擎、聚合导航、数据分析、人工智能等业务,都需要基于爬虫技术。
格式问题:大多数段落中间都空了2行
摘要要直接回答问题,问会违规吗?要直面回答这个问题,要么“会”、要么“不会”,要么“不一定”,。
爬虫是用来批量获得网页上的公开信息的,也就是前端显示的数据信息。因此,既然本身就是公开信息,其实就像浏览器一样,浏览器解析并显示了页面内容,爬虫也是一样,只不过爬虫会批量下载而已,所以是合法的。不合法的情况就是配合爬虫,利用黑客技术攻击网站后台,窃取后台数据(比如用户数据等)。
但是爬虫作为获取数据的技术手段之一,由于部分数据存在敏感性,如果不能甄别哪些数据是可以爬取,哪些会触及红线,就会面临违法的风险。
爬取的内容是一条高压线,绝对不能触碰。包括但不限于:
1、爬取用户信息谋利
2018年,新三板挂牌公司北京瑞智华胜科技股份有限公司,使用爬虫非法窃取用户个人信息30亿条,该公司及其关联公司6名犯罪嫌疑人被控制。
用户个人信息属于敏感信息,近几年打击力度越来越大,严禁使用爬虫爬取这些信息。
2、爬取商业数据
2018年,武汉元光科技有限公司法定代表人授意四名员工,非法爬取竞争对手数据,被判赔50万元。
很多公司为了获得竞争优势,会使用爬虫技术,爬取竞争对手的内容,但这一手段会构成不正当竞争。
3、爬取知识产权数据
爬取大量带有知识产权的数据,并且用于商业目的,属于违法行为。
不难看出,爬虫技术本身并不违法,关键在于使用的方式和目的,还要看是不是商业用途。最后总结一下,爬虫爬数据有几个雷区,一是只能爬取公开数据,二是不能对目标业务和网站造成影响,三是目标网站的全部或部分内容没有使用反爬措施。
| 拓展阅读
让数据流动起来,开启业绩增长!
了解500+品牌零售商使用LinkFlow的场景用例