Redian新闻
>
扎迪·史密斯、史蒂芬·金等人作品被用于训练人工智能

扎迪·史密斯、史蒂芬·金等人作品被用于训练人工智能

文化


据美国《大西洋月刊》等媒体报道,包括扎迪·史密斯、史蒂芬、金、蕾切尔·卡斯克等在内的多位知名作家的小说被用于训练Meta、彭博(Bloomberg)的人工智能工具。这也再次引发了持续已久的人工智能侵权争议。




编译丨刘亚光



据介绍,扎迪·史密斯、史蒂芬·金等人的小说被纳入一个叫Book3的人工智能工具数据集,用于训练Meta旗下的大型语言模型LLaMA——这类语言模型中最著名的就是今年年初极受关注的OpenAI公司旗下ChatGPT。此外,该数据集还被彭博公司用于训练他们的模型BloombergGPT。


英国《卫报》的报道表示,Book3中包含的图书数据大约三分之一是小说,三分之二是非虚构作品,这些作品基本是过去二十年中出版的。除了以上已经列出的作品外,费兰特、阿特伍德、村上春树、乔纳森·弗兰岑等人的多部作品也包括其中。而已经输入到Meta等公司的语言模型中用于训练的数据也已包括了超过170000本书。


用于训练的图书覆盖的出版商十分广泛,包括企鹅兰登书屋(30000多本)、哈珀·柯林斯出版(14000本)、麦克米伦(7000本)、牛津大学出版社(1800本)等。未来计划纳入的作品可能还包括约翰·麦克阿瑟(John MacArthur) 、丽贝卡·索尔尼特 (Rebecca Solnit) 等人。


图源英国《卫报》


用于“喂养”这些模型的数据常来自开放网络,其中也包括Library Genesis、Zlibrary等影子图书馆,其中包含的大量图书资源成为大公司眼中绝佳的分析材料。2020年发布的一篇论文显示,OpenAI训练语言模型的数据来源中,有一个名为Book2的包含30万本图书的数据库。今年6月的一份诉讼案中提到,Book2的数据很可能就源自影子图书馆,而这些被纳入数据库的作品常常受到版权的保护。


ChatGPT等大型语言模型对作家版权的侵犯已经是一个被争论了许久的问题。今年7月,莎拉·西尔弗曼 (Sarah Silverman)、理查德·卡德雷 (Richard Kadrey) 和克里斯托弗·戈尔登 (Christopher Golden) 三位作家就针对Meta的LLaMA提起诉讼,表示自己受版权保护的作品被Book3利用。


此前,作家莫娜·阿瓦德(Mona Awad)和保罗·特伦布莱(Paul Tremblay)也针对OpenAI提起诉讼,声称公司未经作者许可将他们的小说用于训练语言模型,侵犯了作者版权。两人的律师表示,对于大公司的语言模型来说,系统化的书籍是用于训练的最好选择,因为相较于自由散乱的网络在线数据,它们经过了高质量的编辑。当时的诉状称,OpenAI等公司从窃取来的原创想法中“不公平地获利”,理应向作者赔偿。然而,英国《卫报》的报道显示,两位作者很难证明自己因小说被用于语言模型训练而蒙受经济损失。


最初创建 Books3 的独立人工智能开发人员肖恩·普雷瑟(Shawn Presser)在接受采访时表示,他理解作者们的担忧,但他创建这个数据集的目的恰恰是为了让任何人都可以开发生成式人工智能工具,避免大公司垄断技术的风险。Meta的发言人拒绝了就使用Book3发表评论。


人工智能对内容行业的冲击可能在未来很长一段时间里都是值得忧虑的课题。《洛杉矶时报》今年5月的一篇报道就梳理了ChatGPT等语言模型可能对文学、艺术创作者带来的多方面影响。文中提到,相较于职业的媒体工作者、专业作家等,缺乏工会保护的自由职业者、独立艺术家更需要受到关注,因为他们面对人工智能不经同意就利用其作品用于增强自身的行为几乎毫无反抗能力。


在侵权争议之外,人工智能还正在深度参与内容行业的审查工作。据《滚石》等杂志报道,美国已有学校的图书馆开始利用ChatGPT辅助图书中敏感内容的审查。ChatGPT判定出《追风筝的人》《使女的故事》等畅销书包含对性行为的“描述”并建议其下架。然而,后续的多次验证也说明这种判定有其不稳定性。


参考链接:

1. Zadie Smith, Stephen King and Rachel Cusk’s pirated works used to train AI

https://www.theguardian.com/books/2023/aug/22/zadie-smith-stephen-king-and-rachel-cusks-pirated-works-used-to-train-ai

2. This article is more than 1 month oldAuthors file a lawsuit against OpenAI for unlawfully ‘ingesting’ their books

https://www.theguardian.com/books/2023/jul/05/authors-file-a-lawsuit-against-openai-for-unlawfully-ingesting-their-books

3. Column: Your boss wants AI to replace you. The writers’ strike shows how to fight back

https://www.latimes.com/business/technology/story/2023-05-11/column-the-writers-strike-is-only-the-beginning-a-rebellion-against-ai-is-underway

4. Sarah Silverman Sues OpenAI and Meta Over Copyright Infringement

https://www.nytimes.com/2023/07/10/arts/sarah-silverman-lawsuit-openai-meta.html?action=click&module=RelatedLinks&pgtype=Article

本文为编译。编译:刘亚光;编辑:婷;对:柳宝庆欢迎转发至朋友圈。
      
点击阅读原文,查看专题文章

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Zoom明确表示不会使用用户视频来训练人工智能工具实锤!村上春树、史蒂芬·金盗版书成训练数据,AI 巨头无一幸免谷歌正在像训练人工智能聊天机器人一样训练机器人人工智能在美国参与书籍审查,部分学区下架阿特伍德等人作品FxxingChina!​威尔史密斯儿子在日辱华惹众怒!成龙:向全体中国人...剧院新闻|广佛深、重庆、武汉周末上映,马特·史密斯将出演《人民公敌》漫遊大華府(11)大使館開放日(下)由近20亿个可调参数组成,AI制药新锐Deep Genomics设计出首个用于RNA疗法开发的人工智能基础模型NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路Meta花500万美元购买一明星形象,只为打造人工智能助理;中国网络空间安全协会人工智能安全治理专业委员会成立丨AIGC日报Dr. Kieran Chacko, PhD GSBS’17 to conceive, create, resource, an马斯克2023年世界人工智能大会演讲:我相信,中国会有很强的人工智能能力!(附视频&演讲稿)无题史蒂芬·平克:追求理性世界之窗:作品被用于训练AI,阿特伍德霸气回应;海明威连续两次空中惊魂,私人信件披露始末知圈专栏 | 人工智能的“智能”是什么?— 智能的原理(上)硅谷人工智能创新之旅精彩回顾 | 与世界顶尖科技企业交流,探索人工智能创新之谜威尔·史密斯儿子涉嫌辱华, 外媒集体沉默? 成龙发声这么说……下等人装聪明,中等人装实在,上等人……“冰激凌车被用于放置遗体” | 直击加沙地带现状今晚截拍:藤田嗣治、安迪·沃霍尔作品,聚焦现当代艺术类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练《纽约时报》禁止使用其内容训练人工智能模型硅谷人工智能创新之旅总回顾 | 与世界顶尖科技企业交流,探索人工智能创新之谜OpenAI 更新企业价值观:强调通用人工智能;阿里云、华为成立人工智能安全委员会;周杰伦演唱会 4 黄牛被抓 | 极客早知道故梦萦怀话渝州:(3)北碚拾遗造假到加拿大了!边境查获大量伪造ID和枫叶卡!恐被用于欺诈或洗钱作案!Fxxing Chxxa!​威尔.史密斯儿子在日本辱华惹众怒!成龙:向全体中国人道歉!威尔·史密斯老婆卖自传大曝婚恋内幕!勇猛护妻,实则分居已七年?“史密斯夫妇”终于要离了?七年婚姻大战比电影还扯!学习村上春树、史蒂芬·金盗版书,AI巨头的数据训练能否被信任?普京的秘密(4)——Oligarch(1)谷歌AI正在吞食一切!爬取所有公开内容用于训练AI,隐私政策已更新威尔·史密斯妻子自爆已分居7年,表面恩爱秀到极限,原来各玩各的震碎三观…(附视频&解说稿)「简报」Shapiro 州长访问卡耐基梅隆大学——人工智能的诞生地,签署关于生成式人工智能的行政命令;拓展:以新方式建模神经元
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。