《纽约时报》禁止使用其内容训练人工智能模型

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>公众号

公众号新闻

2023-08-16 11:08

点击蓝字关注我们

SUBSCRIBE to US

Photo by Kena Betancur/VIEWpress

《纽约时报》已采取先发制人的措施，阻止其内容被用于训练人工智能模型。据Adweek报道，《纽约时报》于8月3日更新了其服务条款，禁止其内容——包括文本、照片、图像、音频/视频剪辑、“观感”、元数据或汇编——用于开发“任何软件程序，包括但不限于训练机器学习或人工智能（AI）系统”。

更新后的条款现在还规定，未经出版物书面许可，不得使用旨在使用、访问或收集此类内容的网站爬虫等自动化工具。《纽约时报》表示，拒绝遵守这些新的限制可能会导致未指明的罚款或处罚。尽管在其政策中引入了新规则，但该出版物似乎没有对其robots.txt进行任何更改，该文件引导搜索引擎爬网程序可以访问哪些URL。

此举可能是对谷歌隐私政策最近更新的回应，该政策披露，这家搜索巨头可能会从网络上收集公共数据，以培训其各种人工智能服务，如Bard或Cloud AI。许多支持流行人工智能服务的大型语言模型，如OpenAI的ChatGPT，都是在庞大的数据集上训练的，这些数据集可能包含未经原始创作者许可从网络上抓取的受版权保护或其他保护的材料。

也就是说，《纽约时报》早在2月份就与谷歌签署了一项价值1亿美元的协议，允许这家搜索巨头在未来三年内在其一些平台上展示《泰晤士报》的内容。该出版物称，两家公司将在内容分发、订阅、营销、广告和“实验”工具方面合作，因此《纽约时报》服务条款的修改可能针对OpenAI或微软等其他公司。Semafor近日报道称，《泰晤士报》退出了一个媒体联盟，该联盟试图与科技公司就人工智能培训数据进行联合谈判，这意味着如果它真的与公司达成协议，可能会根据具体情况进行谈判。

OpenAI最近宣布，网站运营商现在可以阻止其GPTBot网络爬虫抓取他们的网站。微软还对自己的T&C增加了一些新的限制，禁止人们使用其人工智能产品“直接或间接地创建、培训或改进任何其他人工智能服务”，同时禁止用户从其人工智能工具中抓取或以其他方式提取数据。

本月早些时候，包括美联社（The Associated Press）和欧洲出版商理事会（European Publishers’Council）在内的多家新闻机构签署了一封公开信，呼吁全球立法者引入规则，要求培训数据集透明，并在使用数据进行培训之前征得权利持有人的同意。