Redian新闻
>
OpenAI、谷歌双标玩得溜!训练大模型用他人数据,却决不允许自身数据外流...

OpenAI、谷歌双标玩得溜!训练大模型用他人数据,却决不允许自身数据外流...

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

转载自:机器之心 | 编辑:杜伟、梓文
你的就是我的,我的还是我的。

在生成式 AI 盛行的全新时代,大型科技公司在使用在线内容时正在奉行「照我说的做,而不是做我所做的」策略。在一定程度上,这种策略可以说是一种双标以及话语权的滥用。


同时,随着大语言模型(LLM)成为 AI 发展的主流趋势,无论是大型还是初创公司,都在不遗余力地开发自己的大模型。其中训练数据是大模型能力好坏的重要前提。


近日,根据 Insider 的报道,微软支持的 OpenAI、谷歌及其支持的 Anthropic 多年来一直在使用其他网站或公司的在线内容来训练他们的生成式 AI 模型。这些都是在没有征求具体许可的情况下完成的,并将构成一场酝酿中的法律斗争的一部分,决定了网络的未来以及版权法在这一新时代的应用方式。



这些大型科技公司可能会争辩说他们是合理使用,是否真的如此有待商榷。但是他们却不会让自己的内容被用来训练其他 AI 模型。所以不禁要问,为什么这些大型科技公司却能在训练大模型时使用其他公司的在线内容呢?


这些公司很聪明,但也非常虚伪


大型科技公司使用他人在线内容却不允许他人使用自己的,这种说法是否有确切证据,这可以从他们一些产品的服务和使用条款中看出端倪。


首先来看 Claude,它是 Anthropic 推出的类似于 ChatGPT 的 AI 助手。该系统可以完成摘要总结、搜索、协助创作、问答、编码等任务。前段时间再次升级,将上下文 token 扩展到了 100k,处理速度大大加快。



Claude 的服务条款是这样的。你不得以下列方式(这里列举出部分)访问或使用本服务,如果这些限制的任何一项与可接受使用政策不一致或不明确,则以后者依从为先:


  • 开发与我们的服务竞争的任何产品或服务,包括开发或训练任何 AI 或机器学习算法或模型

  • 未经条款允许,从我们的服务中抓取、爬取或以任何其他方式获取数据或信息


Claude 服务条款地址:https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms


同样地,谷歌的生成式 AI 使用条款也是如此,「你不得使用本服务来开发机器学习模型或相关技术。」



谷歌生成式 AI 使用条款地址:https://policies.google.com/terms/generative-ai


OpenAI 的使用条款又怎样呢?与谷歌类似,「你不得使用本服务的输出来开发与 OpenAI 竞争的模型。」



OpenAI 使用条款地址:https://openai.com/policies/terms-of-use


这些公司很聪明,他们知道高质量的内容对于训练新的 AI 模型至关重要,所以不允许别人用这样的方式使用他们的输出也是合情合理的。但他们却无所顾忌地利用他人数据来训练自己的模型,这又该如何解释呢?


目前,OpenAI、谷歌和 Anthropic 拒绝了 Insider 的置评请求,并且没有做出任何回应。


Reddit、推特和其他公司:受够了


实际上,其他公司意识到正在发生的事情时并不高兴。今年 4 月,多年来一直被用于 AI 模型训练的 Reddit 计划开始对其数据的访问收费。



Reddit 首席执行官 Steve Huffman 表示,「Reddit 的数据语料库非常有价值,因此我们不能把这些价值免费提供给世界上最大的公司。」

 

同样今年 4 月,马斯克指责 OpenAI 的主要支持者微软非法使用 Twitter 的数据来训练 AI 模型。「诉讼时间到」,他在推特上写道。



不过在回复 Insider 的置评时,微软表示「这个前提有太多的错误,我甚至不知道从何说起。」


OpenAI 首席执行官 Sam Altman 试图通过探索尊重版权的全新 AI 模型来深化这个问题。据 Axios 报道,他于近期表示,「我们正在尝试开发新的模式,如果 AI 系统使用了你的内容,或者使用了你的风格,你就会因此获得报酬。」


Sam Altman


出版商(包括 Insider)都会是既得利益获得者。此外,包括美国新闻集团在内的一些出版商已经在推动科技公司付费使用其内容训练 AI 模型。


目前 AI 模型的训练方式「打破」了网络


有前微软高管表示这一定有问题。微软老将、著名软件开发者 Steven Sinofsky 认为,目前 AI 模型的训练方式「打破」了网络。


Steven Sinofsky


他在推特上写道,「过去,爬取数据是用来换取点击率的。但现在只是用来训练一个模型,没有给创作者、版权所有者带来任何价值。」


也许,随着更多公司的觉醒,生成式 AI 时代这一不均衡的数据使用方式会很快被改变。


原文链接:https://www.businessinsider.com/openai-google-anthropic-ai-training-models-content-data-use-2023-6

点击进入—>【目标检测和Transformer】交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
允许自己犯错,也允许别人犯错的人,更容易幸福OpenAI 真有钱啊,7年经验硕士码农前四年平均年薪170万美元小心这个人!华男盗用他人身份银行取钱被识破,动作娴熟,一看就是惯犯!不想被白嫖了,Reddit 将向 OpenAI 、谷歌等公司收取 API 费用,后者一直免费用其聊天内容训练大模型吉利将推自研大模型;OpenAI提交GPT-5商标申请;谷歌助手拟引入大模型丨AIGC大事日报三叶杜鹃花Agustín Hernández:中美洲建筑背景下的未来主义巨构希腊塞萨洛尼基(Thessaloniki),黎明阳光微软、谷歌、亚马逊,正在打响大模型时代的云战争高校回应专业第一盗用他人研究生录取信骗取奖学金!深扒后却发现此人竟是惯犯!对话李志飞:大模型的关键在于如何把大模型用起来|年度AI对话费城日本花园,樱花独放清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下AI大模型用鲁迅风写高考作文,大家来品品能打多少分7天花5万美元,我们成功复制了 Stable Diffusion,成本大降88%!训练代码已开源谷歌、OpenAI 都白干,开源才是终极赢家!谷歌内部文件泄露:欲借开源打败 OpenAI防机密数据外泄 苹果限制员工使用ChatGPT等外部AI为让孩子进好学校,伦敦妈妈不惜违法冒用他人房产地址?!这也太拼了!传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报这种吃祖宗饭、断子孙路的行为,警方坚决不允许!OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流团丨轻松省下上千元的夏季新款,我决不允许你们买贵了!图片平台Shutterstock与OpenAI延续六年合作 允许DALL-E用图库作品训练模型对话 APUS 李涛:全面转型做 AI,蒸馏法训练大模型,沉淀中小模型谷歌内部文件泄漏!谷歌、OpenAI都没有护城河,大模型门槛正被开源踏破!只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型谷歌内部文件泄漏:谷歌、OpenAI都没有护城河,大模型门槛正被开源踏破我允许自己是那朵晚开的花 | 世相来信第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%7 天花 5 万美元,我们成功复制了 Stable Diffusion,成本大降 88%!训练代码已开源OpenAI假设被推翻!给定计算量,较小模型打败大模型,Llama 2训练与GPU计算关联度三贱P图露馅了这件看似毫无用处的小事,却决定着你们的关系能走多久(不止适用于爱情)——文曲星改善了界面思考一下,联邦学习可以训练大语言模型吗?早报早脱单!!训练营Last Call
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。