Redian新闻
>
爬虫玩得好,牢饭吃到饱?这3条底线千万不能碰!

爬虫玩得好,牢饭吃到饱?这3条底线千万不能碰!

科技

导读:合法合规、谨慎小心地应用爬虫技术。


作者:郭斌 刘思聪 於志文
来源:大数据DT(ID:hzdashuju)




数据爬取技术一向是数据公司获取数据的高效途径之一,但严格意义上爬取行为本身并不是完全合法合规的,按我国目前的法律法规及司法判例,爬虫技术可能会触犯以下几个维度的法律要求(仅列出相对重点的法律维度)。


01 反不正当竞争法维度

在未征得被爬取方授权的情况下,爬取数据的行为可能会违反Robots协议。Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。2012年11月1日,十二家企业共同发起了《互联网搜索引擎服务自律公约》,公约要求各签约方遵守Robots协议。

在司法实践中,即使爬取方不属于上述12家公司的范围内,Robots协议也已经被认定为互联网行业搜索领域内公认的商业道德:北京市第一中级人民法院在某互联网安全公司不正当竞争案件中,将行业内公认的Robots协议认定为互联网行业搜索领域公认的商业道德。

法院在判决中指出:

在被告推出搜索引擎伊始,其网站亦刊载了Robots协议的内容和设置方法,说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。

因此,爬取方违反Robots协议的行为可能会被认定为违反《反不正当竞争法》第2条,即违反诚实信用原则以及商业道德。

虽然网络上公开的信息较难构成商业秘密,但由于网络上的某些信息可以通过采取技术措施使得仅有特定的用户可以接触,因此网络上的信息仍有可能具备商业秘密要求的秘密性和保密性,构成商业秘密的可能。

如果爬虫控制者在抓取信息的过程中有意地规避了网站经营者设置的保护措施,接触、保存甚至披露了一般用户原本无法访问的信息,而该等信息又构成商业秘密,则爬虫控制者的该等行为存在侵犯他人商业秘密的可能,进而可能会违反《反不正当竞争法》第9条。

同时,因为爬虫会对被爬取方的网络系统等造成妨碍,所以此类行为可能会违反《反不正当竞争法》第12条。



02 著作权维度

无论是网络上的文章、图片、用户评论,还是网站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用有可能会构成对著作权的侵犯,特别是复制权和网络信息传播权。因为抓取数据的行为本质上是对数据的复制,因此该等行为有可能侵犯著作权人的复制权。

同时就数据提取和使用行为而言,如果爬虫控制者抓取信息后,在自己的网站上公开传播抓取到的信息,则还有可能进一步侵犯信息网络传播权。

例如,马某某等诉某网络科技公司著作权侵权纠纷案。

  • 案情事实

被告某网络科技公司利用类似搜索引擎的计算机爬虫技术进行法语词条的收集与翻译释文的搜索,未支付相应报酬而大量使用原告享有著作权的《当代法汉科技词典》中的内容,马某某将该网络科技公司以侵犯著作权为由诉至法院。

  • 判决结果

根据法律规定,除合理使用外,使用他人作品应当经著作权人同意,并支付相应报酬。被告称其通过爬虫技术收集了词汇词条及中文释义,该技术是被告收集并形成其网络词典词库的一种手段,而非在使用《法语助手》时,通过搜索链接直接指向其他目标网站,被告应该对其收集并使用的词汇及中文释义合法性负有较高的审核注意义务。

因此,被告制作的法语翻译软件内容,部分抄袭原告《当代法汉科技词典》的释义内容,侵犯了原告等人的著作权,应依法承担停止侵害、赔礼道歉、赔偿损失的民事责任。


03 《刑法》及《网络安全法》维度

从技术角度分析,爬虫可能会导致目标网站负荷过大,进而引起网站无法访问甚至瘫痪等不良后果,爬取方可能会违反《网络安全法》中关于网络运行安全方面的规定。但如果你还涉及侵入的情况,就可能会触犯《刑法》第285、286条的规定。

例如在某案例中,王某利用远程登录的方法,通过一个攻击指令侵入目标公司的计算机信息系统,将系统中公司员工的邮箱、通讯录导出来,再修改相应的密码,从而可以随意进入员工的邮箱,最后被判处非法获取计算机信息系统数据罪。

从爬取的内容角度分析,如果爬取的内容是个人信息,那么可能违反《网络安全法》关于收集个人信息合规性的要求,甚至可能触犯《刑法》中的侵犯公民个人信息罪。



小结

综上,数据爬取行为不但容易引起监管部门的重点关注,也易受到来自竞争对手的诉讼,建议企业在进行数据爬取行为时注意以下要点内容。

  1. 尽量避免爬取构成直接竞争关系的企业的平台数据,避免竞争对手依据《反不正当竞争法》提起诉讼的风险。
  2. 尽量爬取明确公开的数据,遵守Robots协议等网站明确公开的协议,避免爬取平台禁止爬取的数据。
  3. 根据《数据安全管理办法(征求意见稿)》第16条的要求,数据爬取收集流量不得超过网站日均流量的三分之一,避免造成目标网站崩溃、无法正常运营等情况。
  4. 对于目标网站已经明确采取技术手段阻止爬虫访问的,公司不应侵入、破坏其防护措施。
  5. 如目标网站明确发出停止数据爬取的相关通知说明,则应暂停数据爬取行为,及时采取对策。

本文摘编自数据合规:入门、实战与进阶》(ISBN:978-7-111-70536-9),经出版方授权发布。

延伸阅读数据合规:入门、实战与进阶
点击上图了解及购买
转载请联系微信:DoctorData

推荐语:多年一线治理经验的系统总结!跟随主人公不断成长,快速掌握多元场景中的实务处理方案!企业数据合规治理的实用工作手册!数据合规专业人士成长晋阶的秘笈!

关于作者:孟洁,现任北京市环球律师事务所合伙人,主要执业领域为网络安全、个人信息与隐私保护。曾在多家知名企业担任法务负责人和数据保护官,任IAPP中国区知识社区主席,被钱伯斯、The Legal 500、LEGALBAND等知名法律评级机构评为 “TMT领域领军人物”“数据保护领域领军人物”“Fintech领域头部律师”等,被北京市律协评为全国千名涉外专家律师。
薛颖,长期在互联网集团担任数据合规与知识产权总监。在外企、世界五百强公司等从事过多年数据隐私合规工作,拥有丰富的互联网场景一线经验。持有CIPP/E、CIPP/U认证,当选ALB中国知识产权法务15强并带领团队获得过《商法》年度“数据合规”优秀团队等奖项。
朱玲凤,现任知名互联网公司隐私及数据合规专家,曾任小米安全与隐私委员会隐私副主席。多年从事数据隐私合规研究和实务工作,深入参与国内信息安全相关标准拟定和重要法律研讨等,在全球隐私法律研究、隐私保护设计、隐私安全技术应用与管理以及App、物联网、人工智能等领域有丰富的实践经验。


划重点👇

干货直达👇


更多精彩👇

在公众号对话框输入以下关键词
查看更多优质内容!

读书 | 书单 | 干货 | 讲明白 | 神操作 | 手把手
大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 数学 | 算法 数字孪生

据统计,99%的大咖都关注了这个公众号
👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
上外学霸给女同学下药内幕曝光:如果你有儿子,一定要教会他这3条规则孕期护肤怎么做?这些成分千万别碰!参与了一场金奖水果吃到饱的聚会,爽死不要怪我没提醒你,在新加坡坐地铁,这些事情千万不能做…什么是最好的爱情?!讲座回顾|99%不能碰的文书主题是啥?如何用函数思维选择主题?爬虫必备Beautiful Soup包使用详解爬虫必备requests的扩展包总结在赛博果园中,还能碰上水果刺客吗?孩子的脑袋里究竟在想什么?这3部关于孩子的纪录片不能错过!惊!女子端午触摸龙舟被船主怒斥脏女人不能碰!还要抓她坐牢豪门牢饭哪家香?中国山东找蓝翔!热搜刚爆就没了,这丑闻千万不能沉白羊座可以哄但是千万不能惯视频号逆势涨粉百万,我有这3条经验“圈钱”套路?传闻中的美研“水”项目不能碰?在美国看到一辆车上系着白毛巾或塑料袋 千万别碰!经济千万千万不能垮,否则腥风血雨将远超唐山事件四川16岁少年救狗身亡,激怒全网:这3条保命原则,父母一定要让孩子知道!爬虫案例:拉勾网工作职位爬取“雨衣男”强拽女子进屋侵犯,女儿目睹全程:如果你有儿子,一定聊聊这条底线!聊厨艺 – 无他,唯手熟尔小说连载:大留学时代 (3. 车震与互怼 )夫妻俩半夜造人,第二天幼儿园老师就知道了?!孩子3岁后,有些事千万不能跟TA说在澳洲的犯罪现场,千万不能有考拉出现!标普可能会跌30%,牢记这10条市场法则蜗牛长到巴掌大,连水泥都啃:这种入侵生物千万不能吃这两个“夏季吸血鬼”,比蚊子狠百倍!看到千万不能拍2年了,南京女大学生被害案细节终披露:如果你有女儿,一定要告诉她4条底线《乌合之众》告诉你!投资千万不能相信群众美国田纳西州警长发出警告:看见地上有“折叠的美钞”,千万不要捡,千万不要接触,立刻通知警方处理英国正式立法严打“代写”!各国这些学术诚信红线千万别沾边!养好一个孩子的最低成本:守住这3条线愤怒声讨以美国为首的北约袭击中国驻南大使馆 造成三死廿余伤的严重罪行对联 1999年5月8日新来的铸铁锅-LC Caribbean blue
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。