多位畅销书作家起诉“ChatGPT”侵犯知识版权
近日,美国喜剧演员兼作家萨拉·西尔弗曼(Sarah Silverman)以及其他两位畅销书作家联合起诉Meta(科技公司)和OpenAI(科技公司),未经作者同意擅自使用他们的书籍来“训练”人工智能软件。几周前,另外几位畅销书作家也以同样的理由发起诉讼。最近一个月以来,在艺术、编剧等领域都已有不同规模的起诉。
《萨拉·西尔弗曼:一尘不染》(Sarah Silverman: A Speck of Dust,2017)画面。
据美国《洛杉矶时报》《纽约时报》等媒体报道,当地时间上周五,莎拉·西尔弗曼以及另外两位作家理查德·凯德里(Richard Kadrey)和克里斯托弗·戈登(Christopher Golden)在旧金山联邦法院发起了集体诉讼。莎拉·西尔弗曼除了从事演出以外也是一位作家,她于2010年出版了畅销回忆录《尿床者》(暂译,The Bedwetter)。根据法庭文件,这些作家声称这两家科技公司将他们图书的“文本”注入到被称为大型语言模型的生成式人工智能软件中,却并未给予他们任何认可或补偿。每项诉讼要求不到10亿美元的赔偿。
几周之前,畅销书作家莫娜·阿瓦德(Mona Awad)和保罗·特伦布雷(Paul Tremblay)也以类似理由提起图书版权的侵权诉讼。接受这项诉讼的律师约瑟夫·萨维里(Joseph Saveri)和马修·巴特里克(Matthew Butterick)还代表几位视觉艺术家对备受争议的人工智能艺术工具“Stable Diffusion”(动画生成工具)提起诉讼,同时对微软公司的软件“GitHub Copilot”(编程工具)进行集体诉讼。
OpenAI公司的ChatGPT这类的大型语言模型需要消耗大量的文本,然后这些生成式人工智能开始“自我训练”,以便于使用模仿人类自然的回应方式来回答用户的提示或问题。它们可以编写代码、创作粉丝小说、代拟求职申请信,或者帮助完成学校作业。另外,Meta公司的生成式人工智能语言模型LLaMA(一种语言模型)与ChatGPT有所不同,它不是一个问答系统,而是一个旨在为人工智能领域内的研究人员提供工具的研究工具。然而,这几起诉讼对这类模型接收信息的方式和数据来源提出了控诉。
人工智能模型的资料通常来自于电子图书馆,其中的一部分是合法的,比如Project Gutenberg(数据库),这是一个收集版权已过期的电子书的数据库。另外一些来源常被称为“影子图书馆”,其中充斥着一些读者可以获得的电子书,但通常缺乏作者和出版商的版权许可。诉讼指责Meta和OpenAI公司向其人工智能模型提供了包括来自“影子图书馆”收集的书籍在内的数据,并称这种做法是“公然违法”。
这项诉讼中附有与ChatGPT的对话副本来支持原告的主张,这份对话内容显示,这些人工智能模型能够准确地概括莎拉·西尔弗曼、理查德·凯德里和克里斯托弗·戈登等人所写的书籍,比如ChatGPT可以为西尔弗曼的回忆录《尿床者》、凯德里的畅销书系列“沙人斯利姆系列”(Sandman SlimSeries)以及戈登的超自然惊悚小说《亚拉致命峡谷》(Ararat)等书籍生成摘要。
这项诉讼还引用了公开发表的评论,该评论者声称收集了Meta公司用于“训练”人工智能的图书数据,并确认其中包括了知名影子图书馆“Bibliotik”的全部图书,总共超过19万6640本的侵权图书。几位原告也指控OpenAI公司向其ChatGPT软件提供了未经授权的图书来“获得丰厚的利润”。据《洛杉矶时报》的报道,生成式人工智能引发的担忧也扩散到了音乐、银行、电影业在内的其他行业,比如美国编剧工会发起罢工的理由之一,就是好莱坞的制作工作室正在使用人工智能软件取代编剧和演员的工作。
微信扫码关注该文公众号作者