Redian新闻
>
交钱!StackOverflow:类ChatGPT们用我数据训练得付费

交钱!StackOverflow:类ChatGPT们用我数据训练得付费

公众号新闻
金磊 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT,遭到了一波反向收费

而管OpenAI要钱的,正是全球最大程序员问答网站StackOverflow

理由是这样的:

你们拿我家的数据去训练AI了。

无独有偶,在StackOverflow之前,Reddit近日也发出了类似的信号——计划开始向访问其API的公司收费。

Reddit老板给出的理由更是直白:

我们的数据非常有价值,不想免费提供给科技巨头们。

不得不说,这波围绕类ChatGPT展开的“商战”着实有点意思。

不过围观的网友们就不那么乐观了:

唯一没有获利的……好像就是用户了。

科技巨头们要为训练数据买单了

我们都知道,训练一个像诸如ChatGPT这样的AI,背后定然需要海量的数据。

无论是OpenAI、谷歌、微软、Meta或是其它公司都是如此。

但这些科技巨头们一般获取这些数据的方式都是从网上抓取,也因此不会给对应数据背后的公司掏钱。

他们所获取的数据来源,就包括了StackOverflow、Reddit在内的数千个在线“资源”。

然后科技巨头们就会将这些数据“喂”给大模型,让对话AI变得更聪明、更智能。

待产品们成熟可以“上岗”之后,科技巨头们就会开启付费模式,例如我们熟知的ChatGPT Plus、GitHub Copilot等等。

但在这么一个过程中,像StackOverflow和Reddit这样的网站,就有点惨了。

首先,就是我们刚才提到的,这些AI拿着他们家的数据做训练,变得更强更优秀。

其次,这些AI的诞生似乎对于它们来说并没有太大的益处,反倒可能会变成非常有竞争力的对手。

于是乎,Reddit就率先不干了,CEO Steve Huffman直接撂下狠话:

想白嫖,没门!得交钱。

而后StackOverflow的CEO Prashanth Chandrasekar也公开赞成Reddit的做法。

不仅如此,他还认为这些大语言模型(LLM)的开发人员还违反了自家网站用户们的权益。

因为在StackOverflow条款中有这样的明确规定:

用户拥有他们在Stack Overflow上发布内容的所有权,但所有内容均受知识共享许可的约束,该许可要求以后使用这些数据的任何人都说明其来源。

Chandrasekar认为,日后科技巨头们拿着自家的类ChatGPT的产品去出售的时候,开发人员是解释不清用了StackOverflow哪些用户的问答去训练的模型:

因此,他们违反了知识共享许可。

据了解,StackOverflow和Reddit目前都没有对数据收费做明确的公示,而且价格也没有定下来。

但另一方面,各种大语言模型背后的企业,也正在努力降低开发的成本。

将来若是训练数据都要收费了……那这部分成本又将会有谁来买单呢?

反正Reddit CEO的表态是:

爬取Reddit数据产生了价值,却不将任何价值返还给我们的用户,这是个问题。

会怎么收费?

虽然目前StackOverflow和Reddit都没有明确训练数据的价格,但有媒体猜测,他们可能会借鉴马斯克推特的“定价路线”。

例如在这个月,马斯克就提高了访问推特数据的价格——42000美元/5000万条推文。

更戏剧性的是,马斯克前一阵子还以“OpenAI非法使用推特数据训练”为由,准备起诉OpenAI。

而不仅是文字领域,在图片生成领域,因训练数据而产生的纠纷也是屡见不鲜。

例如Getty Image就在此前起诉了OpenAI的对手Stability AI。

理由是涉嫌使用超过1200万张照片且之前没有寻求过许可。

……

至于像StackOverflow和Reddit最终将如何定价,还需要等待他们官方的表态。

但值得明确的一点是,随着这一波AIGC热潮的到来,其背后的各种“规矩”,是值得深入探讨、商定了。

参考链接:
[1]
https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/
[2]https://qz.com/reddit-ai-bots-training-payment-1850352526
[3]https://twitter.com/ruchowdh/status/1649168431063736320

《中国AIGC算力产业全景报告》征集启动

AIGC算力需求爆发,谁将在此次算力产业变革中脱颖而出?

量子位《中国AIGC算力产业全景报告》《最值得关注的AIGC算力玩家》正式启动对外征集,期待有更多优秀的机构产品、案例与技术能够被大众看到。


点这里👇关注我,记得标星哦~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
自动驾驶生成式大模型 DriveGPT 来了:基于 4000 万公里量产车驾驶数据训练,参数规模 1200 亿拒绝“白嫖”!Stack Overflow 将矛头直指 ChatGPT 等产品:用了我的数据训练,得先给钱!程序员越“老”就越看不上 AI 辅助编程工具?Stack Overflow 2023 开发者调查 AI 特别报告不满官方纵容AI内容,Stack Overflow版主大搞罢工几百名大佬联名给ChatGPT们踩刹车,AI到了失控边缘?!微软开源“傻瓜式”类ChatGPT模型训练工具,提速省钱15倍【城事】巴黎市长将重修Châtelet 广场以方便行人集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布谷歌顶级AI专家加入OpenAI 曾警告谷歌不要用ChatGPT数据训练Bard0.5美元润色一篇论文:ChatGPT们对科研意味着什么?两会声音|全国人大代表、科大讯飞董事长刘庆峰:类ChatGPT可能是人工智能最大技术跃迁港科大开源LMFlow!3090单卡5小时,每个人都能训练专属ChatGPT【初次】把房间,租给恐怖陌生人。。。。。。。。。活在 ChatGPT 们阴影里的 Stack Overflow:流量萎缩、裁员 10%,CEO 坦言公司正处于困难时期巴黎市长将重修Châtelet 广场以方便行人谷歌Bard是拿ChatGPT数据训练的?BERT一作抗议无果,跳槽OpenAI...CVPR 2023 | 浙大提出全归一化流模型PyramidFlow:高分辨率缺陷异常定位新范式一个仅仅只是属于你我的《车站》ChatGPT的统治正在冲击Stack Overflow?开源 ChatFlow:让人类设计高质量流程,让 ChatGPT 生成与复读Young Chinese Love Everything About Sweden. Except Living There.美国费城,城市街景3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow美丽的巴洛克建筑:冬宫AI之下没有秘密:网友诱骗ChatGPT激活 Windows 11,ChatGPT落入陷阱!Bard是拿ChatGPT数据训练的?谷歌顶级科学家抗议无果,出走OpenAI大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型活在ChatGPT们阴影里的Stack Overflow:流量萎缩、裁员10%,CEO坦言公司正处于困难时期ChatGPT们写高考作文,然后相互批改,会发生什么?iPhone 15 Pro系列或涨价/苹果在做类ChatGPT产品/OpenAI联合创始人谈GPT-4废物处理: Waste Management (WM) 公司招人东方甄选回应直播间疑似售假;美国要求字节出售TikTok股份;苹果正开发类ChatGPT技术;GPT-4接入Office丨邦早报「ChatGPT之母」最新采访:GPT-4离超级智能还很远,半年内不会训练GPT-5AI辅助编程工具给开发者带来好处了吗?Stack Overflow 2023 开发者调查AI特别报告最赚钱编程语言Zig登顶,开发者爱ChatGPT远超必应|Stack Overflow报告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。