Redian新闻
>
五年官司终败诉,万亿爬虫大军蠢蠢欲动

五年官司终败诉,万亿爬虫大军蠢蠢欲动

科技新闻

编译 | Tina、核子可乐
互联网爬虫战争永无休止。

这算得上是爬虫斗争历史上具有里程碑意义的一个裁决。本周一,美国法院裁定,数据分析公司 HiQ 控诉 LinkedIn 案维持原判,并且认定从公共网站收集个人资料完全合法。

LinkedIn 是微软旗下的职业社交平台,用户可以在 LinkedIn 网站建立个人档案,包括教育背景、工作经历、技能等信息。HiQ 则是一家数据分析公司,从 LinkedIn 爬取公开数据,进行整理分析后将处理结果出售给相关企业。

LinkedIn 虽拥有数据,然而数据本身是由用户提供给 LinkedIn 的。在大数据时代,一些互联网平台积累了大量用户数据,并以此建立自身资源优势:在和其他互联网企业与平台的竞争中,用户数据越多利用得越好,就越容易吸引更多用户,从而处于更有利的地位。这种滚雪球式的效应使得互联网企业往往将数据视为竞争中的核心资产。

1 官司打了两三回,最终偏向公共利益

在此案之前,任何访问 LinkedIn 网站的人都可以得到这些数据。在数据分析公司 HiQ 长期对 LinkedIn 的网站数据进行爬取行为后,LinkedIn 向 HiQ 发送了禁止通知函,并在函中援引了《计算机欺诈与滥用法案》(Computer Fraud and Abuse Act, “CFAA”)。

2017 年,HiQ 先发制人,作为原告方,控诉 LinkedIn 通过法律、技术等多种方式阻止其复制 LinkedIn 用户的公开个人资料,还向法院申请了临时禁令。

虽然 HiQ 公司对 LinkedIn 网站实施了网络爬虫,但美法院法官认为,这种爬虫行为并不违反法律,因为 LinkedIn 网站上的数据是公开数据,对于公开数据,即使违反对方设置的 robot 协议,也应当是被法律允许的。

这就像在白天推开一家未锁门的商店进去看看,并不能将其认定为非法侵入。因此,法院最后不仅没有认定 HiQ 公司的爬虫行为违法,甚至反过来认定 LinkedIn 的反爬虫技术违法。

负责审理此案的地方法官向 HiQ 授予了初步禁令,禁止 LinkedIn 在案件审理期间干扰 HiQ 的数据爬取工作。法官认为,《计算机欺诈与滥用法案》(将“未经授权”或者以“超出所授予访问权限”方式访问受保护计算机,认定为犯罪行为)并不适用于 HiQ 从 LinkedIn 网站收集公开数据的行为。

面对不利局面,LinkedIn 选择上诉。早在 2019 年,上诉法院就曾经支持下级法院于 2017 年在 HiQ 诉 LinkedIn 案中做出的裁决,认定网络爬取并不属于“未经授权访问受保护计算机”行为,裁定也依旧维持原判。LinkedIn 再次选择上诉。但两年之后,第九巡回法院仍然站在 HiQ 一边,并将此案发回加州北区法院。

LinkedIn 当然对此不服,随后向美国最高法院提起上诉。2020 年 3 月,LinkedIn 要求最高法院审查第九巡回法院做出裁决。该公司辩护称,其以技术手段阻止网络爬取、同时发送终止通告函件的行为,应被视为符合正常授权机制的要求。实际上,作为微软持有的社交媒体网站、LinkedIn 一直努力避免站内结果被外界直接查看,但又不希望因过度封闭而自绝于搜索引擎。

LinkedIn 方面的律师在递交给最高法院的申诉书中写道,“根据第九巡回法院的裁定,除非用密码机制将网站彻底封锁起来,否则任何一家决定部分公开网站内容的企业——包括 Ticketmaster、Amazon 等在线零售商,乃至 Twitter 等社交网络平台——都将暴露在批量部署的侵入性爬虫程序的面前。”

“而一旦选择密码封锁,则网站将无法被搜索引擎正常检索,导致人们无法经由互联网上最主要的信息获取渠道发现其中信息。”

2021 年 6 月 3 日,美国最高法院曾在另一起类似案件,即 Van Buren 诉美国政府案中,缩小过《欺诈与滥用法案》的管控范围。Nathan Van Buren 是佐治亚州的一名警察,有权限为执法目的搜索有关车牌的计算机记录。他中了联邦调查局的圈套,为私人目的搜索这些记录(应联邦调查局线人的要求,该线人提出为这些信息支付数千美元)。最终美法院对他判处了 18 个月的监禁。人们一直批评该法案未对“未经授权”和“超出授权范围”做出清晰界定。

美国高等法院在 Van Buren 案中表示,单纯违反服务条款并不符合《欺诈与滥用法案》中提出的“超出授权范围”条件。然而,基于凭证的锁闭机制是否足以作为确定“未经授权”访问的唯一方法,美国高等法院仍未能给出明确答案。

两周之后,美国最高法院决定将 HiQ 诉 LinkedIn 案发回第九巡回法院,希望结合 Van Buren 案的判例重新审视《欺诈与滥用法案》的适用范畴。但从结果来看,上诉法院虽然参考了 Van Buren 判例,但最终仍做出了维持两年前原判意见的裁定。

第九巡回法院在裁决中指出,“公共网站的一大基本特征,就是其中公开可见的部分不受访问限制;换言之,这些部分将对任何拥有网络浏览器的访问者开放。”

“也就是说,如果将这些托管公开页面的计算机视为房屋,那么公共网站设备在部署之初就没有设置任何“前门”,自然不存在提高或降低访问门槛一说。因此,Van Buren 案强化了我们的裁定,即“未经授权”概念确实不适用于公共网站。”

但院方裁决并未解决 HiQ 与 LinkedIn 之间的恩怨纠葛,只是单纯禁止 LinkedIn 继续干扰 HiQ 收集其公开网站数据、并表示不支持根据《欺诈与滥用法案》对 HiQ 的分析业务提出索赔。而案件背后真正核心的不公平竞争、隐私侵犯等问题仍未得到解决。

在邮件声明中,LinkedIn 发言人表示该公司不会放弃诉讼,将继续在法庭上寻求合理的结果。“我们对结果感到失望,但这只是一项初步裁决、案件还远未结束。我们将继续努力保护 LinkedIn 会员,特别是保护他们在网站上掌控个人信息的能力。”

此案的影响力

数据抓取行为如今被广泛应用到社会生活当中,不仅仅是在商业上的使用,还有学术研究上的应用等等。因此,本案的判决也受到极大的关注。此案的裁决得到了美国媒体的欢呼和赞誉,认为第九巡回法院的决定是档案工作者、学者、研究人员和记者的“重大胜利”。

对于争论不休的数据和隐私的归属问题,这个案件也在一定程度上进行了讨论。从第九巡回上诉法院的观点来看,其裁决支持了用户才是数据的所有者,平台只是依据用户的授权才使用这些数据,而不能完全拥有这些数据。

在 Reddit 上,网友们对 LinkedIn 发言人提起上诉的解释发起了大量嘲讽:“这样的解释即使不是荒谬的,也是冒昧的,提供数据的用户从来没有得到平台的反馈”,“保护客户隐私的说法被夸大了”,“现在谁会相信这样的解释是有意义的?”…….

另一方面,数据抓取也是现代互联网生态的重要组成部分,根据 Akamai 的统计,全球互联网流量中,近 40% 的流量由爬虫所占据。在 2021 年第二季度,全球遭遇的爬虫攻击达到了 700 亿次,同比增长 15%。美国法院这一裁定,也意味着从此百亿爬虫抓取在线零售商和社交网络平台的公开信息,是合乎美国法律的。

中美法律不同,需谨慎使用爬虫技术

或许正是由于数据的重要地位,近年来中外关于数据的争议问题层出不穷。在中国,爬虫行为引发的不正当纠纷案件也不在少数。德恒律师事务所曾发布过一篇名为《爬进“不正当竞争”的虫,代价不菲》的文章,在文章中讲述道,他们以“爬虫”等关键词在北大法宝检索并筛选出自 2016 年起的爬虫类相关案件共 49 件,大部分为刑事案件,涉及侵犯著作权罪、非法经营罪、侵犯公民个人信息、诈骗罪、敲诈勒索罪等,也包括部分民商法案件,主要涉及著作权和不正当竞争纠纷。

其中一个典型案例是大众点评诉百度案。

2016 年,百度因大量使用爬虫抓取大众点评的点评信息,在百度地图中进行展示,后被大众点评诉至法院。法院审理认为,百度的行为违反了公认的商业道德和诚实信用原则,构成不正当竞争。

在大众点评诉百度的二审判决中,法官明确指出:“在自由、开放的市场经济秩序中,经营资源和商业机会具有稀缺性,经营者的权益并非可以获得像法定财产权那样的保护强度,经营者必须将损害作为一种竞争结果予以适当的容忍。本案中,汉涛公司所主张的应受保护的利益并非绝对权利,其受到损害并不必然意味着应当得到法律救济,只要他人的竞争行为本身是正当的,则该行为并不具有可责性。”

虽然技术是中立的,但是技术应用存在着边界。目前,平台的数据权属无法进行明确化的界权,所以界定法律责任的过程还是比较复杂的。也因此,随着互联网技术的发展,“爬虫”二字在中文语境逐渐带上了“贬义”色彩。

对编写网络爬虫的程序员来说,如果爬到不该爬取的数据,则存在违法的可能。“爬虫写得好,牢饭吃得早”戏称的存在,也说明了我们需要谨慎对待爬虫技术。就像 LinkedIn 平台,获取公共数据一般有两个选择:使用爬虫 /scraper (免费但有风险),使用 API(不是免费但安全),如果一定需要使用这些公开数据,需要我们做出谨慎的抉择。

参考链接:

https://www.theregister.com/2022/04/19/scraping_public_data_linkedin/

《数据抓取的边界在哪里?》:http://rmfyb.chinacourt.org/paper/html/2020-03/19/content_166271.htm?div=-1

《爬进“不正当竞争”的虫,代价不菲》:http://www.dehenglaw.com/CN/tansuocontent/0008/023370/7.aspx?MID=0902

今日好文推荐

自由软件之父抨击苹果电脑变成“监狱”,不建议用Ubuntu

今天的应用架构,正处在一个不可测的阶段

2022 年 Java 将何去何从?

华为前员工利用bug越权访问获利,被判一年;马斯克拟全资收购推特后将代码放到GitHub;阿里云人事大变动 | Q资讯    



活动推荐

2022 年 6 月,QCon 全球软件开发大会北京站策划【实时音视频】专场,邀请火山引擎实时音视频(RTC)产品负责人担任出品人,腾讯、网易云信技术专家共同探讨音视频领域的最新技术实践。议题已上线官网,演讲提纲可点击底部【阅读原文】查看。

QCon 北京站现场门票火热售卖中,9 折优惠进行中,感兴趣的同学可扫描图中二维码咨询或直接联系票务经理:17310043226。

点个在看少个 bug 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
来源: qq
相关阅读
苹果芯片,蠢蠢欲动世纪广场案败诉,900人EB-5投资款尚无法追回圣县前警长腐败案败诉,永久禁止担任公职免费试听|爬虫模型项目实战+SQL面试真题解析三周掌握,华丽变身数据大神!写python爬虫,你永远绕不过去代理问题10个python爬虫入门实例股票代码“DJT” 川普媒体公司终上市 周二开始交易高盛2024年官方目标校名单流出:碾压哥大、沃顿,这个学校没想到…艾博年官宣!澳洲新总督即将上任,为史上第二位女总督股价狂飙!AI芯片卖爆,万亿巨头创历史新高!股民:当年两块的时候,有几个人敢买...英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练卫星时代,万亿市场商机无限,「卫星物联网」赛道精选来袭丨Banglink 2024年第9期美墨边境铁丝网案最高法院判得州败诉华府消息|特朗普败诉被罚八千多万澳洲政府败诉! 正式官宣: 这款新冠疫苗停用, 副作用严重! 澳男接种后, 心脏像90岁, 获终身赔偿澳洲政府败诉!官宣:这款新冠疫苗停用!副作用真的太明显了...澳洲政府败诉!官宣停用这款新冠疫苗!澳洲爸爸打完,心脏像“90岁老人”Uber败诉了!赔偿2.7亿澳币!
原创公众号
北美华人健康协会多伦多大学学生会分会成功举办第一次纳新活动超值!仅1,X00万円!投资新宿核心地段优质单间公寓司机注意!100多项违规停车罚金暴涨!这种情况罚五倍!特鲁多遭痛批!让中产变贫困!债务翻倍!只为选票定政策!新福利!又要发钱!每人最高$2400!哪些人受益?求锤得锤!Google员工办公室喊口号抗议以色列,全部被开除【大华超市】南加州地区本周特价4/19-4/25/2024重磅!新港滩豪宅开枪打死入室劫匪的或是华人!是绑架未遂,案件疑点重重加州十大安全城市排名出炉!尔湾仅排在第10破天荒!英国正式实行弹性工作制,留学生:行,念完书就赖在英国不走了春招岗位|最后3天!英国精品投行PJT Partners全职岗位即将关岗惊险!神秘华人富豪遭绑架未遂 $700万豪宅凌晨被闯 他持枪反击匪徒一死一伤只是开玩笑!美国警察用滤镜把自己P成黑人 被发现后遭解雇吓人!美国妈妈在7岁儿鞋内找到AirTag 心底一沉:被跟踪1个多月只需$25元 龙虾无限吃!美国连锁餐厅太火爆 结果被吃破产美国也开始内卷了?大量劳动力跨越边境 遏制工资上涨幅度一起浪福利社 | LA飞Vegas机票$34起、LA飞SF机票$34起…Watstravel炸裂福利手慢无!刚刚!美国哥大校长发求助:大批防暴警察进入校园实施逮捕........美股警讯?分析师预测“暴跌30%”,持续14年涨幅一夕归零!哈利王子脱英4年“梅根新事业卖果酱”!名人试吃评价曝光(图)洛杉矶少女商场更衣室遭警察误杀…检方拒提刑事指控!达拉斯99大华超市4月19至4月25特价折扣大全!"风暴预警"!达拉斯将迎强风暴+大冰雹+破坏性大风!出手了!加拿大CRA严查6大税务!侧重房产交易和海外资产: 大批华人受影响!在加拿大如何提前安排这件人生大事!未雨绸缪,预先计划很重要。加拿大49岁华裔女子遭刺死,陈尸高尔夫球场外!亲友悲痛筹款!加拿大超50%华人移民吐槽:移民政策太宽松!新来最支持这个党!数百万加拿大人受"资本利得税"影响!尤其这些业主和企业!加拿大两华人"中文合同"买卖$290万豪宅闹上法庭!7年纠葛终于判了!惊魂!加航多伦多起飞的国际航班宣布紧急状态!载290人飞机多次故障!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。