新闻第98期|投石问路:纽约时报诉OpenAI侵权法律分析
张 越 浙江大学本科
郭依贝 华东政法大学本科
黄铄媛 新加坡国立大学法律职业博士
编辑 | 崔 雪 天津师范大学本科
余卓妍 西安交通大学本科
责编 | 扎恩哈尔·阿黑哈提 新疆农业大学本科
投石问路:纽约时报诉OpenAI侵权法律分析
一、事件背景与进展
(一)纽约时报提起侵权诉讼
2023年12月27日,纽约时报公司宣布在纽约州曼哈顿联邦法院向OpenAI及微软提起诉讼,指控这两家公司非法使用《纽约时报》的数百万篇文章以训练他们的聊天机器人,从而与《纽约时报》的新闻业务直接竞争。诉讼没有提出具体的经济赔偿要求,但声明被告应对“数十亿美元的法定和实际损害”负责,这些损害与“非法复制和使用《纽约时报》独特而有价值的作品”有关,还要求公司销毁任何使用《纽约时报》版权材料的聊天机器人模型和训练数据。
诉状称,OpenAI和微软“免费搭便车”,利用了《纽约时报》在其新闻业务上的巨额投资,并使用《纽约时报》的内容无偿创造了可以替代《纽约时报》的产品,分流了纽约时报的部分受众。诉状突出了《纽约时报》品牌可能遭受的潜在损害,尤其是由于所谓的AI“幻觉”现象,即聊天机器人错误地插入虚假信息,并错误地将其归咎于某一来源。诉讼中列举了几个例子,例如微软的Bing Chat提供错误信息,声称这些信息来源于《纽约时报》,比如一篇关于“15种最有益心脏健康的食物”的文章,其中12种食物并未在《纽约时报》的文章中提及。诉讼还强调,如果像《纽约时报》这样的新闻机构无法制作和保护它们的独立新闻,将会出现无法由任何计算机或人工智能填补的“民主空白”。
前述纽约时报的起诉状全文中英文翻译版本,请见中美法律评论翻译部于2024年1月4日发布的公众号文章。《中文翻译首发 | 纽约时报起诉要求销毁ChatGPT,赔偿数十亿美元(起诉状全文)》
(图片源于网络)
(二)OpenAI的官方回应
哗然中,OpenAI于2024年1月8日发布了题为《OpenAI and Journalism》的博文,对于纽约时报的控诉进行了公开、正面的回应。关于此篇官方发文的核心要旨,可提炼为:OpenAI秉持技术支持新闻行业的立场,同时主张纽约时报提出的此次诉讼是全无实质性根据的,并提出以下四点反驳:
1. OpenAI希望成为良好的合作伙伴支持健康的新闻生态系统建设,并与新闻、媒体机构共同创造互惠互利的机会。为此,OpenAI部署相关产品模型以协助记者、编辑完成分析公共事件的大体量记录和翻译事实内容一类的耗时任务;通过在额外的历史性、非公开内容上训练AI模型,使AI模型更充分地了解世界运作的逻辑;在ChatGPT中显示实时内容及其对应的信息归属方,为新闻出版商提供与读者互动、连接的新方式。在此前与美联社、头部出版公司Axel Springer、美国新闻项目(American Journalism Project)和纽约大学(NYU)的早期合作中,OpenAI就已经利用前述方式支持新闻行业在AI的助力下发展。
2. 使用新闻数据训练AI语言模型属于合理使用,而且OpenAI为该训练过程提供了可选择退出的选项。认为训练AI模型属于合理使用的原则得到了一系列学者、协会、民间社会团体、初创公司、各行业领先的美国公司、创作者等的支持。其他地区和国家,包括欧盟、日本、新加坡和以色列,也曾制定过允许在版权内容上训练模型的法律。同时,OpenAI引领AI行业为出版商提供了一个简单的选择退出过程(《纽约时报》在2023年8月采用了这一过程,以防止OpenAI的工具访问纽约时报的网站)。
3. 出现“重复性内容”(Regurgitation)错误属于罕见现象,OpenAI正在努力将此类事件发生的概率降至零。“死记硬背”在模型的学习过程中极为少见,但当特定内容在训练数据中出现不止一次时,这种故障就会较为常见。对此,OpenAI采取了相当措施来限制无意中的记忆,防止在模型输出中出现重复内容。
4. 纽约时报在控诉中的事实呈现并不完整。OpenAI称,2023年12月19日,在与纽约时报的最后一次沟通中,双方的谈判重点围绕在ChatGPT将实时显示内容的归属方这一业务模式的高价值合作上,OpenAI的用户将获得《纽约时报》的访问权限,且《纽约时报》对现有AI模型没有实质性贡献,也不会对未来的模型训练产生足够的影响。同时,纽约时报诱导转载的内容似乎来自多年前的文章,而这些文章已在多个第三方网站上广泛传播,纽约时报也似乎有意篡改了提示语,通常包括冗长的文章节选。
(图片源于网络)
二、法律问题简析
(一)生成式人工智能是否可能构成著作权侵权
确认侵权作品的国际标准是“接触+实质性相似”。若被指控侵权作品作者曾接触过原告受保护的作品,并在内容上存在实质性相似,除非有法定抗辩理由,否则认定为侵权。在文义上,“接触”指被告实际使用他人作品,而“实质性相似”指使用了原作品中的独创性表达。
在接触层面,GPT运作原理是对知识进行数字化处理,并在深度学习前将其转化为数据格式储存。在我国著作权法上,GPT的数据挖掘属于著作权法的“复制”,可能侵犯复制权。被告对GPT训练使用的数据集主要来自《纽约时报》,表明已满足“接触”条件。在实质性相似层面,若AI模型使用原作品表达却未得许可,即使生成内容独创,可能触及侵犯改编权。例如,若指控GPT输出与《纽约时报》“实质相似”属实,则可能证明侵权。然而,判断AI生成文本是否侵犯版权需考虑模型工作原理。GPT模型通过分析学习数据生成响应,可能学习模仿语言模式,但不意味着有意抄袭。区分风格模仿和直接抄袭是技术难题,需考虑多方面因素,因为著作权法保护作品具体表达,不包括风格、想法或概念。
(二)OpenAI的“合理使用”抗辩是否成立
根据诉状,ChatGPT模型的训练未经授权使用了大量纽约时报的新闻数据,但从未支付任何费用。对于OpenAI一直在强烈主张的“合理使用”情形,美国版权法主要采取“四要素”判断法。
第一,考虑作品使用行为的性质和目的。若被告对版权作品的使用是商业性的,则不属于合理使用;但若基于非营利性教育目的,则更可能被视为合理使用。然而,自Campbell案后,美国法院认为,当商业性使用显著提高社会效益时,应以“转换性使用”为判断标准。例如,2016年美国作家协会起诉谷歌,指控其在数字图书项目中扫描并展示拥有著作权的图书。法院认为谷歌文本数据挖掘方便用户进行图书搜索的新使用目的和将图书数字化的新使用方式具有“转换性”意义,构成合理使用。按照这一思路,如果ChatGPT对文本数据进行分析、学习,并输出创造性的新内容,其使用方式和目的可能与原作品不同,ChatGPT的文本数据挖掘可能会构成转换性使用。
第二,考虑被使用作品的性质。通常来说,作品的独创性越强,其受到的法律保护就约为完善,因此ChatGPT使用的全部《纽约时报》内容可能并不全部构成侵权。
第三,考虑被使用部分的数量和质量。这要求对使用行为进行定量和定性分析。
考虑使用对作品潜在市场或价值的影响。按照原告诉状,被告利用大语言模型(LLM)大量获利,可能导致大量减少《纽约时报》的收入,同时可能误导用户,损害《纽约时报》的商业信誉。
(三)人工智能大模型与不正当竞争问题
ChatGPT利用爬虫技术收集数据引发的不正当竞争问题属于互联网领域的独有的现象,与传统的不正当竞争行为有所不同。在互联网经济领域,法院一般采用广义视角认定竞争关系,注重争夺消费者注意力以谋取竞争优势和实现经营利益。竞争关系不仅仅局限于同一行业、服务类别或业务模式,只要双方争夺的网络用户群体同一或存在重合,就有可能被认定存在竞争关系。据原告诉状,ChatGPT与被抓取数据的《纽约时报》可能存在竞争关系。若确认抓取方的行为影响了被抓取方的预期利益、合法市场份额和消费者信任度,ChatGPT的抓取训练数据行为可能被视为不正当竞争。
(图片源于网络)
三、评价与行业展望
(一)本诉讼的里程碑意
无论纽约时报诉OpenAI这一事件最终获得法院什么样的判决结果,这都是一起具有里程碑意义的诉讼,将会对AI时代的法律规制带来深远的影响,人工智能企业或将迎来一波诉讼浪潮。从社会影响力来说,这是一家美国权威大型媒体与新兴科技巨头之间的战争;从法律角度而言,这是第一起新闻行业针对AI版权提起的诉讼案件;从价值观念来讲,这件事反映了传统新闻价值观念与技术愈来愈进步的AI框架下新闻价值观念的抗衡与博弈。
(二)行业前景展望
随着ChatGPT点燃全球各地对于人工智能的关注和热情,对人工智能领域的法律规制与框架构建成为越来越重要且紧迫的议题。在这起诉讼案件之前,对人工智能提起的诉讼已屡见不鲜,尤其在文艺创作领域引发了尖锐的争议。无论是多名著名作家通过全美作家协会向纽约曼哈顿联邦法院提起集体诉讼,指控OpenAI侵犯其受到版权保护的作品,输入至LLM模型当中,抑或Getty Images起诉Stability AI使用其图像作为训练数据,都反映了文字领域和图像领域AI法律规制的模糊。
针对以上所有的案件,法院的判决结果都将会传递出法律行业和法律权威人士关于人工智能领域监管最前沿的态度和立场。而这一态度和立场,可能影响文艺创作者和文艺制作公司的创作积极性,也会影响未来科技公司训练人工智能的方式和数据资源库,对AI领域的知识产权制度产生质的影响。
参考文献
微信扫码关注该文公众号作者