Redian新闻
>
拒绝“白嫖”!Stack Overflow 将矛头直指 ChatGPT 等产品:用了我的数据训练,得先给钱!

拒绝“白嫖”!Stack Overflow 将矛头直指 ChatGPT 等产品:用了我的数据训练,得先给钱!

公众号新闻

整理 | 屠敏  出品 | CSDN(ID:CSDNnews)


打不过就加入!

继去年 12 月 Stack Overflow 称 ChatGPT 生成的答案正确率非常低并决定宣布临时封禁 ChatGPT 之后,其开始以另一种身份加入这场 AI 竞赛中。

据外媒 Wired 报道,开发运行 ChatGPT 和 DeLL-E 等“病毒式” AI 工具系统可能会使得背后的公司如 OpenAI 花费数十亿美元,而 StackOverflow 正计划让这笔费用变得更高一些,其希望对使用自己平台数据进行训练的 AI 公司收费。

值得注意的是,现如今和 Stack Overflow 有着类似想法的公司也不在少数, 社交媒体 Twitter、新闻社区 Reddit 等也正有此意,在各方「画地为牢」之际,谁将为大模型的训练买单也成为行业内关注的焦点。


大模型背后的大数据从何而来?


众所周知,ChatGPT、GPT-4、Google Bard、Bing Chat、LLaMA 等 AI 模型都需要基于大量数据集进行训练。

然而,数据从何而来,这些模型背后的开发商 OpenAI、Google、Meta 虽然从未正面解释过这一问题,但是据《华盛顿邮报》的一项调查显示,其中大部分是从互联网上抓取的。

为了验证这一点,《华盛顿邮报》分析了 Google 的 C4 数据集,其中包含了 1500 万个网站内容的快照,它也被用来训练 Google T5、Facebook 的 LLaMA 模型。

通过与艾伦人工智能研究所的研究人员合作,最终他们发现此数据集主要来自新闻、娱乐、软件开发、医药和内容创作等多个行业的网站,覆盖收集来自世界各地发布的专利文本的 patents.google.com、维基百科、仅供订阅的数字图书馆(scribd.com)、Medium,以及 Stack Overflow、Reddit 等平台也在其中。

来自这些网站的数据显然对 AI 模型公司而言非常具有价值,他们可以通过互联网成千上万的信息源,根据参数训练他们的大型语言模型(LLM),从而成功进行自然语言处理(NLP)。


Stack Overflow 反向抵制 AI 模型


Stack Overflow 作为全球知名的编码论坛,为开发者提供协作与交流的环境,也是程序员讨论编码问题的主要聚集地。当前,市面上很多的 AIGC 都支持辅助编码、能够在理解用户提出的编码问题基础上提供生成式代码、甚至也可以捕捉 Bug 以及 Debug,而大模型之所以拥有这些能力,也有大量相关编码问题与数据集的支撑。

不过,随着 ChatGPT 等产品的到来,对老牌 Stack Overflow 这样的平台带来了巨大的冲击。在今年早些时候,也有媒体报道,Stack Overflow 惨遭程序员抛弃,其网站访问量与搜索量急剧下降。

根据营销平台 Semrush 的流量监测工具显示,近一年来,Stack Overflow 的访问量持续下滑。

另一方面,以 Stack Overflow、ChatGPT、GitHub 为关键词,据 GoogleTrends 显示,Stack Overflow 的搜索量垫底。

与之形成鲜明对比的是,很多大模型产品已经走向了商业化,如微软对其代码生成器 GitHub Copilot 的收费高达 19 美元/人/月、OpenAI 推出了每月 20 美元的 ChatGPT Plus 服务。

在这种趋势之下,Stack Overflow 想要绝地反击,便也不足为奇。据 Wired 报道,Stack Overflow CEO Prashanth Chandrasekar 表示,“Stack Overflow 计划最快在今年年中开始向开发大模型的开发者、公司收费,付费的群体才可以获得其服务中的 5000 万个问题和答案。”

为此,Prashanth Chandrasekar 也在 Stack Overflow 的官方博客上特地发表了一篇主题为《社区是人工智能的未来》的长文,分享道:

如今,建立在尖端大语言模型 (LLM) 之上的复杂聊天机器人只需一张在餐巾纸上画的草图照片即可为网站编写功能代码。他们可以回答有关如何构建应用程序的复杂查询,帮助用户调试错误,并在几分钟内在不同语言和框架之间进行翻译。

在 Stack Overflow,我们不得不坐下来问自己一些尖锐的问题。当用户可以像其他人一样轻松地向聊天机器人寻求帮助时,我们在软件社区中扮演什么角色?我们的业务如何适应,以便我们继续授权技术人员学习、分享和成长?

在 Prashanth Chandrasekar 看来,「人工智能系统的核心是建立在丰富的人类知识和经验之上。他们通过数据训练来学习——例如开源代码和 Stack Overflow 问答。」

基于此,Stack Overflow 想要推出 Stack Overflow for Teams 服务,决定向使用其数据的公司寻求赔偿,这属于维持社区蓬勃发展战略的一部分,无可厚非。


Reddit、Twitter 同样想要对数据收费!


无独有偶,想要强硬地拒绝 AI 模型开发商“白嫖”的平台也不止 Stack Overflow 一家。

就在几天前,美国知名论坛社交平台 Reddit 宣布,它将从 6 月开始向一些人工智能开发者收取访问其自身内容的费用。Reddit 表示,API 访问收费的细节仍在敲定,价格预计在未来几周内公布。

除此之外,马斯克掌管下的 Twitter 也欲对大模型公司发起反击。在 3 月 26 日,Twitter 推出了自家最新的 API 价格结构,包含免费版、基础版以及企业版。

  • 免费版:只有使用 Twitter 登录的访问权限,以及每月仅提供 1,500 个发帖请求。

  • 基础版:每月 100 美元,可以获得 50,000 个发帖请求和 10,000 个阅读请求。

  • 企业版:并没有列出具体的价格。但是承诺提供“满足您和您客户特定需求的商业级访问”以及“[来自]专门客户团队的托管服务。” 不过,据外媒 Platformer 此前报道,企业版每月的费用可能高达 42,000 美元。

这意味着如果企业想要接入 Twitter API,用上面的数据来训练,需要付出一笔不菲的费用。

与此同时,马斯克还打算追究旧账,其认为 OpenAI 以及微软在 AI 模型方面的成功,离不开 Twitter 数据的贡献。为此,在上周微软宣布旗下 Smart Campaigns 广告服务不再支持 Twitter 之际,马斯克便留下威胁之语,称「他们使用 Twitter 数据进行非法训练。(现在是)诉讼时间。」


StackOverflow:不是针对全员,只是针对大公司


在 Stack Overflow CEO Prashanth Chandrasekar 看来,"为 LLMs 推波助澜的社区平台绝对应该为他们的贡献得到补偿,这样像我们这样的公司就可以重新投资回我们的社区,继续使它们蓬勃发展"。

Chandrasekar 认为,潜在的额外收入对确保 Stack Overflow 能够不断吸引用户和维持高质量的信息至关重要。他认为这也将有助于未来的聊天机器人迭代,毕竟大模型想要与时俱进,必须要"在一些最前沿的知识上训练。而 Stack Overflow 需要不断创造新的知识"。

但是,将有价值的数据圈起来也可能阻止一些人工智能的训练,并减缓 LLMs 的改进。Chandrasekar 表示,开放适当的许可只会有助于加速高质量 LLM 的发展。

不过,据 Wired 透露,此次 Stack Overflow 和 Reddit 并非是想向所有 AI 模型公司“发难”,其还是会将继续向一些人和公司免费授权数据。

Chandrasekar 表示,“Stack Overflow 只希望从本着商业目的而开发 LLM 的公司那里得到报酬。当人们开始对建立在我们这样社区之上的产品收费时,这就是不公平使用的地方。"

另外,据《纽约时报》报道,Reddit 首席执行官 Steve Huffman 称,他不想给世界上最大的公司提供免费服务。他表示,「抓取 Reddit,产生价值,却不把这些价值返还给我们的用户,这是我们有意见的地方。」


AIGC、大模型的下一步:该如何规范使用?


为此,不少业界人士认为,Stack Overflow、Reddit 对其聊天数据进行收费是似乎已经成为行业一种发展趋势,这也必然会对上游 AI 大模型厂商带来一定的影响。

毕竟每个 AI 模型开发商无不在寻求降低开发大模型的巨大成本,然而,如今他们不仅需要为巨大的算力付出代价,也还要为无法计算的数据量来买单。截至目前,OpenAI、Meta、Google 等公司均未予置评。

不过,继续想想,如果 Stack Overflow、Reddit 等平台索取费用成功,对于在其平台上免费撰写问题和答案的普通用户而言,似乎也有理由要分一杯羹了。

这一场围绕大模型、AIGC 训练引发的规范、付费问题的讨论也将愈演愈烈。

参考:

https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/

https://www.zdnet.com/article/stack-overflow-joins-reddit-and-twitter-in-charging-ai-companies-for-training-data/

https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

END

官方站点:www.linuxprobe.com

Linux命令大全:www.linuxcool.com

刘遄老师QQ:5604215

Linux技术交流群:3861509

(新群,火热加群中……)

想要学习Linux系统的读者可以点击"阅读原文"按钮来了解书籍《Linux就该这么学》,同时也非常适合专业的运维人员阅读,成为辅助您工作的高价值工具书!


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
拜登动用总统权力 首次否决国会通过法案 矛头直指特朗普“白嫖”公共数据,用GEO数据库发表自己的第一篇SCI“人大代表”人数应该增许多【城事】巴黎市长将重修Châtelet 广场以方便行人怎么办?滑铁卢大学学生怒曝:实习工作被“白嫖”!雇主不给工资!韩议员讨论修法,要求外国游戏制定韩国代理,矛头直指中国厂商?chatgpt 说顾城剽窃学员故事|UMich学姐分享:如何巧妙“白嫖”大佬工作经验?知道员工所有秘密,Meta版AI聊天机器人来了:使用公司内部数据训练,能写代码、调试,还能总结会议PK chatgpt 的诗评谷歌顶级AI专家加入OpenAI 曾警告谷歌不要用ChatGPT数据训练Bard42+7,凑个七七四十九天AI辅助编程工具给开发者带来好处了吗?Stack Overflow 2023 开发者调查AI特别报告不满官方纵容AI内容,Stack Overflow版主大搞罢工厉害了我的 ChatGPT, 弱ChatGPT的统治正在冲击Stack Overflow?程序员越“老”就越看不上 AI 辅助编程工具?Stack Overflow 2023 开发者调查 AI 特别报告太牛!澳女“白嫖”一切!靠打工换宿!8年来从没花过1分钱!餐巾纸和牙膏都用别人剩下的!Chatgpt 眼中的“马云数钱”,大家看AI绘画靠谱么?“白嫖”公共数据,居然用GEO数据库完成自己的第一篇SCI怎么开始学佛(十六)放弃幻想微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型交钱!StackOverflow:类ChatGPT们用我数据训练得付费你敢信“白嫖”公共数据,用GEO数据库发表自己的第一篇SCI !活在ChatGPT们阴影里的Stack Overflow:流量萎缩、裁员10%,CEO坦言公司正处于困难时期Bard是拿ChatGPT数据训练的?谷歌顶级科学家抗议无果,出走OpenAI巴黎市长将重修Châtelet 广场以方便行人活在 ChatGPT 们阴影里的 Stack Overflow:流量萎缩、裁员 10%,CEO 坦言公司正处于困难时期我是如何“白嫖”公共数据,用GEO数据库发表自己的第一篇SCI,速看!梦想开花最赚钱编程语言Zig登顶,开发者爱ChatGPT远超必应|Stack Overflow报告免费版GPT-4和GPT-3.5:随时切换,无限“白嫖”说好的web3怎么悄无声息了?反倒AI有了突破(ChatGPT)爱奇艺客户端 “白嫖” 电视机;Twitter劲敌注册量破三千万;基于NT架构的全新QQ Windows版发布 | 周热点3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow自动驾驶生成式大模型 DriveGPT 来了:基于 4000 万公里量产车驾驶数据训练,参数规模 1200 亿【大瓜】白宫惊现“可卡因” 网友矛头直指拜登儿子人生体验PRICELESS的一个瞬间瓦格纳兵谏:普里戈任称部队已从乌越境抵达俄南部军事总部所在地,矛头直指俄防长谷歌Bard是拿ChatGPT数据训练的?BERT一作抗议无果,跳槽OpenAI...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。