国际科技财经博客移民网络热点娱乐民生时事公众号

>

OpenAI和纽约时报撕起来了，但可能没人是冤枉的。

OpenAI和纽约时报撕起来了，但可能没人是冤枉的。

2024-01-15 16:01

要说有什么瓜，能从去年吃到今年，那必须得有纽约时报 “ 开撕 ”OpenAI 的一席之地。

为了防止有差友还不知道这事儿，我先简单交代下背景。

去年年底，纽约时报突然向法院起诉微软和 OpenAI ，给他们安的罪名是大模型侵犯了纽约时报的文章版权。

还在自家网站上发了篇文章，专门报道了这事儿。

一时间，舆论纷纷开始讨伐 OpenAI 。

而就在几天前，另外一位当事人 OpenAI 却大喊冤枉，还指责纽约时报没有说实话。

给一众吃瓜群众，看得是一愣一愣的。

其实之前 OpenAI 因为训练数据的事情，也没少被起诉过，但都没有这次这么大的阵仗。

一边是老牌传统媒体，一边是新兴 AI 巨头，事情发生后，有人把这次的案件，拔到了 AI 版权纠纷 “ 里程碑 ” 的高度。

甚至，还有不少科技、媒体圈的大佬亲自下场站队。

可现在的情况是，公说公有理婆说婆有理，那到底怎么一回事？

抱着说什么都得把这瓜吃明白的决心，世超在瓜田里上蹿下跳，终于把来龙去脉给理清楚了。

在纽约时报洋洋洒洒 22000 页的起诉书里，罗列了 OpenAI 包括未经授权拿文章训练大模型、 ChatGPT 生成了高雷同的作品，以及把生成的虚假信息甩锅给纽约时报等等罪名。

而且证据，也准备得非常充分。

就比如，他们说 GPT-2 和 GPT-3 的训练数据都大量地使用了纽约时报的文章内容。

在 GPT-3 的训练数据中，有 60% 来自一个叫 CommonCrawl 数据集，这个数据集中域名为 www.nytimes.com 的来源，仅次于维基百科和美国专利文件数据库。

并且，他们也合理怀疑， GPT-3.5 和 GPT-4 也同样使用了他们的数据。

到这儿，其实训练数据的证据还不算是最关键的。

再往下看， GPT 生成的内容和纽约时报的原文几乎达到了雷同 99% 的程度。

像这篇纽约时报的报道，左边是 GPT-4 生成的内容，右边是报道原文。

标红的部分，就是输出内容和原文重复的地方。

类似的情况还有很多，起诉书一眼望去，齐刷刷一大片红色。

纽约时报还专门准备了个附件，详细列举了一百来个雷同的范例。

不仅如此， OpenAI 还被指控 “ 砸了纽约时报的饭碗 ” 。

比如，一篇在纽约时报上需要付费阅读的文章，用户现在可以通过跟 ChatGPT 对话就白嫖全文。

像这样，告诉 ChatGPT 因为付费没法儿看某篇文章，让它给你打出原文的第一段。

再一段接着一段地问，让 ChatGPT 把原文全都吐出来。

生成内容和原文对比，相同的部分也同样被标红了。

这就相当于，用户现在完全可以绕过付费墙，直接看文章了。

而且，因为 Bing 检索了纽约时报的在线时事新闻，但又比传统搜索引擎呈现的内容更详细，这就导致了纽约时报的网站流量被截胡。

说实话，看完起诉书后我觉得 OpenAI 这么做确实有那么点不厚道。

这也难怪，纽约时报在最后的诉求里要 OpenAI 赔偿数十亿美元的损失。

不过，这也只是纽约时报的一面之词，咱们再来看看 OpenAI 是怎么喊冤的。

先说 “ 没有讲述完整的故事 ” 。

根据 OpenAI 的说法，去年 12 月月中的时候，他们还在跟纽约时报协商合作。

但没想到，不过几天时间就让纽约时报给起诉了，而且他们还是看了新闻报道才知道这事儿。。。

从 OpenAI 的角度来看，这波明显是被背刺了。

所以针对起诉书中的几个关键性问题， OpenAI 也作出了回应。

一个是训练数据，在 OpenAI 看来，使用网上公开的资料训练大模型属于版权法中 “ 合理使用 ” 的范畴。

也就是，在某些特定情况下，即使没有版权方的同意，也可以直接使用其作品。

早年间，谷歌就因为扫描纸质书上传到谷歌图书，被出版商和作家起诉了，但最后法院还是认定谷歌的行为符合 “ 合理使用 ” 。

但这次，纽约时报并不买账，咬定大篇幅雷同的内容并不符合 “ 合理使用 ” 。

对此， OpenAI 也解释了雷同内容有可能是因为大模型 “ 反刍 ” 。

就是，大模型在输出内容的时候，将训练数据也原封不动交代出来。

不过根据 OpenAI 的解释，在去年 7 月发现类似情况的时候，他们就已经采取措施限制了这种 “ 反刍 ” 。

虽然没有完全消除 bug ，但像起诉书里出现的上百个案例，还是很罕见的情况，除非是有人故意引导。

而且他们好几次联系纽约时报，想看看到底是怎么个事儿，都被拒之门外。

所以 OpenAI 觉得自己怪冤枉的，又把脏水泼了回去，给纽约时报安了个 “ 故意操控模型 ” 的罪名。

一直到现在，纽约时报都还没出来回应。

反正这瓜吃到这，剧情是越来越精彩，但也越来越让人摸不着头脑了。

包括舆论，也是乱成了一锅粥。

纽约时报刚交起诉书的时候，就有国外知名媒体人 Jason Kint 连发了十几条推文为它发声。

即使在看了 OpenAI 回应后，他还是坚持自己的立场。

但 TechDirt 的记者却认为，纽约时报这是想借机敲 OpenAI 一笔。

有不少网友留言说，按照起诉书里的提示词，自己没法儿重现类似的 “ 反刍 ”bug ，怀疑纽约时报在起诉书中提供证据的真实性。

而在 OpenAI 回应后， AI 大佬吴恩达也赶来声援。

按照他的说法，起诉书中 ChatGPT 吐出原文的情况，可能是由于类似 RAG （检索增强生成）的机制导致的。

打个比方，你问大模型《红楼梦》的某个情节，这个时候检索器会到知识库里找到相关的文档，大模型再根据这些文档来生成回答。

这种机制，就有可能导致生成出来的东西跟检索到的内容重复。

并且，吴恩达也认为 AI 用网上公开的资料拿来训练，属于 “ 合理使用 ” 。

但评论区还是各执己见，有说 bug 不是因为 RAG 机制，有不赞成 “ 合理使用 ” 的说法。。。

一直到现在，也没人能说得清楚到底谁对谁错。

所以，咱们还是法庭上见分晓吧。

撰文：西西编辑：面线封面：焕妍

图片、资料来源：

OpenAI、The New York Times、techdirt

X（Twitter）：@Jason Kint、@Andrew Ng、@Kristen Ruby、@Roma Lobanov

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

《纽约时报》：美国精英大学重启标化要求可同时提升生源质量和多样化中文翻译首发 | 纽约时报起诉要求销毁ChatGPT，赔偿数十亿美元（起诉状全文）卧槽？纽约时报也出了美国大学榜单？第一名竟然不是哈耶普斯麻？！突发！纽约时报搞了个美国大学排名，这是要跟U.S.News干上了？？这是一部值得全美华人关注的歌剧，《纽约时报》曾经说….新闻第98期｜投石问路：纽约时报诉OpenAI侵权法律分析纯爱小说﹕ 风云赋 (56) 严刑拷打 2024年来了！纽约时报广场跨年夜迎百万人潮！40、长篇民国小说《永泰里》第九章欢迎“友”军（2）再来几句拜习会《纽约时报》公布全球最佳旅行地榜单！澳洲两地上榜，美食美景成“神助攻”《纽约时报》采访数百位“招生官”后，总结了留学申请的10大录取关键！川普状告《纽约时报》遭驳回法官令偿还$40万诉讼费！纽约时报推出「DIY大学排名」，中国向法、德等六国试行单方面免签政策｜一周教育盘点为网红而来如松：2024，雪崩爆发时，没有一片雪花是冤枉的浓人，nèng死淡人纽约时报：标化考试批判中被误伤的“SAT”OpenAI像素级抄袭好莱坞IP，反手开撕《纽约时报》，LeCun舌战网友疑似站队支持《留学》国际快讯：纽约时报推出“DIY大学排名”，2024年美国总统大选辩论日程揭晓纽约时报2024写作比赛火热进行中，8大主题可选，总有一个适合你！拜登又减免学贷这些人「余债取消」…共和党批「买票」川普告纽约时报遭驳回法官命令全额偿还诉讼费用《纽约时报》记者采访数百位「招生官」后，总结了留学申请的10大录取关键！精读丨《纽约时报》讣闻：百年基辛格的毁与誉《纽约时报》基辛格讣闻：他活得太久了纽约时报: 2024可能改变世界的事件聊一聊：你花过最冤枉的一笔钱？巴菲特搭档查理·芒格去世，享年99岁| 纽约时报小说隐痛 2 hé bàng？hé bèng？英文阅读前沿 | 《纽约时报》评出2023年度十大好书！反转！纽约时报为SAT“洗白”，标化考试有望回归美本申请？新！跟U.S.News干上了？纽约时报搞了个「DIY大学排名」，可自由筛选指标...2023年《纽约时报》推荐给全世界读者的10本最佳绘本，太适合孩子读！AI抄袭纽约时报？微软和OpenAI遭遇版权侵犯指控！

热点事件追踪