在版权付费方面，OpenAI 比人想象中的还要「小气」

2024-01-07 13:01

夕小瑶科技说原创
作者 | 撒鸿宇、王二狗

随着新闻出版商与AI公司达成“使用新闻训练AI模型”的协议，像 OpenAI 等科技企业愿意为受版权保护的信息支付的价格逐渐浮出水面。

据 The Information 报道，OpenAI 每年愿意向出版商提供 100万到500万美元来支付受版权保护的新闻文章训练其AI模型。

但即使对于小型新闻出版商来说，这个数额其实很小，这可能会让 OpenAI 难以达成交易。

与此同时，苹果也不甘示弱，最近的一份报告称，苹果正在寻求与媒体公司合作，将内容用于人工智能训练，并在多年内提供至少 5000 万美元来购买数据。

这些数字与一些早期的非人工智能许可交易相似。例如谷歌在2020年宣布将总共投资10亿美元与新闻机构合作。在新法律的压力下，谷歌最近还同意每年向加拿大出版商支付总计 1 亿美元，以换取他们文章的链接。

AI模型训练受到挑战

当今的大语言模型主要是根据互联网信息进行训练的。虽然一些AI公司没有透露它们如何获取训练数据，但明显都少不了使用网络爬虫从互联网获取大量数据。

但目前这种做法现在面临着重大挑战。

一方面，OpenAI 的 GPT 爬虫已被一些媒体公司禁止访问数据，其中包括《纽约时报》和 The Verge 的母公司 Vox Media。

另一方面，一些公司认为对其数据进行爬取训练构成版权侵权。

就在一周前，纽约时报法院起诉OpenAI 和微软侵犯版权！要求销毁 ChatGPT 以及任何其他使用《纽约时报》作品而没有付费的大语言模型和训练集。

该诉讼指控 OpenAI 和微软未经允许利用《纽约时报》数百万篇的受版权保护的数据训练ChatGPT等人工智能模型。更重要的是，诉讼声称 ChatGPT 和 Bing Chat 经常复制《纽约时报》文章的长篇逐字副本。这使得 ChatGPT 用户能够绕过《纽约时报》的付费墙。

良好的合作伙伴关系可以让人工智能公司避免数据版权问题，并且这在过去的一年里已经成为一种很常见的做法。Axel Springer（Business Insider 的母公司）和美联社等出版商已与 OpenAI 签署协议，授权GPT-4 等模型开发新闻采集技术。

OpenAI 和苹果并不是唯一希望与新闻机构合作的人工智能开发商。据报道，谷歌演示了一款名为 Genesis 的AI工具，该工具可以获取事实并向《纽约时报》、《华尔街日报》和《华盛顿邮报》的高管提供新闻报道。与此同时，一些新闻机构在新闻编辑室中使用了生成式AI工具，但结果好坏参半。

[1]https://www.theverge.com/2024/1/4/24025409/openai-training-data-lowball-nyt-ai-copyright

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq