Redian新闻
>
号称超越 GPT-4 的大模型们,有多少靠的是「抄袭」

号称超越 GPT-4 的大模型们,有多少靠的是「抄袭」

科技
 
大家相互薅羊毛,要用,但要小心用,一不小心就尴尬了。
一位国产大模型算法工程师在接受「甲子光年」采访时的吐槽,可以说是非常到位了。
它准确地阐述 AI 业内一个所有人「心照不宣」的公开秘密。
所有人都知道,大家却都尽量不「直视」它,那就是「偷数据」。
最近,「The Information」戳破了这层纱,道出大模型「套壳」中最糟糕的一种形态。而它背后的数据之战,也在今年获得了更多关注。
让模型走向同质化的「数据捷径」
如果所有人都用一样的数据,你又怎么会比其他人好呢?
投资了 OpenAI 竞争对手 Anthropic 的门罗风投(Menlo Ventures)总经理 Matt Murphy 评论道。
大家都知道,在大模型训练过程中,数据至关重要,并且在不同阶段的侧重点也有所差异。
在训练基座模型时,数据追求的是「量」,对算力要求也是极高,它决定了大模型对事物的基本「理解能力」。
显然,不是所有初创企业都能给得起这个费用和时间。所以很多创业公司会跳过第一步,直接用 Meta 或 Mistral AI 开源的模型来用。
在这个基础上,创业公司需要针对自己的产品专注方向来对模型进行微调 —— 数据输入量相对少,但更具针对性和高质量,可以帮助模型成为特定领域的「专家」,做出产品差异性。
在这个阶段,开发者需要输入「问题」「回答」,试图为模型建立特定「联想」倾向。
这也是「偷数据」出现的环节。
因为 OpenAI、Anthropic 和 Google 这类大公司有资源去完善地完成两个阶段的训练,所以它们的模型所输出的结果质量也相对较高。
缺乏自有数据的初创公司,会购买 GPT-4 这类最新模型的付费账户,然后根据自己模型训练的需要去向 GPT-4 提问,再把回答和提问问题一并输入到模型训练。
譬如,主打编程细分领域模型的开发者可以直接输入一段代码,然后问 GPT-4 这段代码有什么问题,这样就生成了一个数据材料。
理论上,大公司们并不允许如此操作。
然而,有消息称 OpenAI 的 Sam Altman 在去年的一次会议上对创业者说,他们可以这样去做。这固然让当下的创业者安心了一些,但谁也说不准哪天 Altman 就决定要把这「特权」收回去。
Google 去年也有自己的「数据门」—— 不仅被指用百度的文心一言生成的中文数据来训练 Gemini,还有员工因 Google 用 ChatGPT 生成的数据训练自己的模型怒而辞职。
在行业整体「默许」下,这种情况变得越来越普遍。
帮助开发者研发对话式 AI 的 Unsloth AI 联合创始人 Daniel Han 表示,其客户中大概有一半的人都会用 GPT-4 或者 Anthropic 的 Claude 生成的数据来优化自己的模型。
原本用来分享有趣 ChatGPT 对话的工具 ShareGPT 成为了不少公司直接扒数据的地方,而类似 OpenPipe 这类工具则甚至可提升整个过程的自动化程度。
结果就是,现在市面上有越来越多创业公司提供大同小异的模型。这甚至衍生出如旧金山的 Martian 一般,专门为需要用 AI 服务的企业寻找「平替」方案的创业公司。
但投资人并不喜欢这种被欺骗的感觉。
正如《纽约时报》在最近文章的指出,目前 AI 行业缺乏标准和评测体系,人们很难统一标准地了解不同模型的表现差异或优势所在。
这让投资人更重视 AI 创业公司训练数据的来源。Radical Ventures 合伙人Rob Toews 强调说:
AI 模型训练数据的质量和来源已经成为其中一个最重要的热点关注之一。
没人知道未来会怎样,但任何在数据来源上不谨慎或不具备策略性的 AI 创业公司都将落后。
数据大战中,「沉默」成为了共鸣
如果说「缺芯」是 2023 年 AI 行业的共识,那「缺数据」则是 2024 年的新主题。不仅创业公司缺,大公司更缺。
无论体量是大还是小,为了获得数据,这些公司都开始在灰色地带徘徊。
早在 2021 年,OpenAI 就面临了数据短缺问题。
虽然有员工提出行为不当性忧虑,最后 OpenAI 还是写了一个语音转文字工具 Whisper 来将超过 100 万小时的 YouTube 视频转为文字,用作 GPT-4 训练。
在这次行动中,OpenAI 总裁 Greg Brockman 还亲自出马帮忙收集视频。
知情人士透露,当 Google 发现 OpenAI 的所作所为后,它并没有揭发斥责这些侵害创作者版权的行为,因为,Google 也要做同样的事情。
Google 发言人 Matt Bryant 回应称,公司对 OpenAI 的行为并不知情,且严禁未经授权的数据抓取。
除了 YouTube 以外,三位知情人士表示,Google 也在盯着旗下线上协作文档工具 Google Doc 里的数据,但其隐私政策限制了 Google 使用这些数据的方式。
去年 7 月,Google 更新了隐私政策,明说可通过收集网络上的公开信息或来自其他公共来源的信息来训练 AI 模型。
对于在 AI 领域「起了大早却赶了个晚集」的 Meta 来说,虽然有法务曾警告过版权问题,最后也是决定跟随 OpenAI 的「行业先例」去使用有版权保护的书籍、文章等材料。
泄露出来的录音还表明,Meta 高管们一致同意,出事了可用 2015 年作家协会诉 Google 案失败的先例来辩护。
至于看起来应该是 Meta 最大优势的 Facebook 和 Instagram,事实上可用数据并不多,很多 Facebook 用户都删掉了自己早期发布的内容,而社交媒体通常也不是人们爱用来发布长篇内容的地方。
这些巨头们不愿言说的过往,构成了 AI 行业在训练数据上一致的闪烁其词。
Adobe 算是其中鲜有积极讨论自家模型训练数据的大公司。
最近,它也「塌房」了。
Adobe 一直以来标榜公司是和创作者站在同一边,坚定只使用自家获得授权的图库来训练模型,不会像 Midjourney、Dall-E 那样擅自用有版权保护的图像素材训练。
直到有人发现,Adobe 的训练数据里其实有包括 AI 生成图片,而且 Adobe 也是知情的。
虽然 Adobe 强调,模型的训练数据里只有 5% 左右的图像是 AI 生成的,但无论如何那些图像也是通过侵害创作者版权利益而造的文生图模型做出来的,因此并不完全「道德」。
这个月初,Adobe 高级副总裁 Ashley Still 还在一场公开活动上说:
我们在推出 Firefly 时,有企业用户会来跟我们说:「我们很爱你们在做的事,真的非常感激你没有盗取我们在网上的知识产权。」
不知道「塌房」消息出来后,这位企业用户会作何感想。
「榨干」互联网后,下一步在哪?
我们曾以为互联网「浩瀚无垠」,直到现在大语言模型已经「吃不饱」。
两年前,研究机构 Epoch 的 Pablo Villalobos 指出,高质量数据很有可能会在 2024 年中期出现需求超过供给。他们现在乐观了一点,认为这个情况会在 2028 年才出现。
即便如此,OpenAI 现在可能也已经在忙了。
Epoch估算,GPT-4 所用训练数据约为 12 万亿 token,根据尺度定律(Scaling Law),要训练出被寄予厚望的 GPT-5 大概要 60-100 万亿 token。
如果按这个标准,现有的高质量文字数据和图像数据加起来体量根本不够,还差 10-20 万亿 token。
改变迫在眉睫。
Sam Altman 之前也暗示过,OpenAI 在找寻新的出路:
我想,那个追求庞大模型的时代已经快要到头了。
我们将用其他方法来让它们变得更好。
与此同时,消息人士称 OpenAI 和 Google 都考虑做一套可以丈量特定数据对模型训练贡献程度的系统,这样好给提供这些数据的人计算要支付的费用,但目前还没有什么进展。
而在这些开拓数据和创新技术实现之前,有一件事 AI 创业公司现在就有能力但不一定愿意做的事 —— 提高透明度,打破沉默。
如果这也做不到,我们又怎能相信这些公司能做出对社会负责任的 AI 产品?


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
主观评价中国的成就GPT全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选OpenAI掌门人:GPT-4.0让我爱不释手 下代大模型可能不叫GPT-5今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准谁会接手闺蜜的老公(男友)?神奇的催眠,到底是「科学」还是「玄学」?神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型开源大模型火了!(附99个大模型微调模型/数据/工具)!【硅谷的故事】硅谷的鸢尾花 第一章命运动力学:量子纠缠波动之灾(喜)杀疯了!全面超越Llama3的强悍开源模型,仅9B,1000k上下文;GPT-4级别模型1年降价1万倍最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上作为nation/ㄋㄟㄒㄣ语言的汉语的书写系统“美国最该尴尬的,是今天中国开源模型们重大的贡献”性能超越 GPT-4 Turbo!「商汤日日新」大升级,国产大模型超市开张了刚刚,这个全面超越 GPT-4 的大模型,正式推出了 iOS 应用 | 附下载链接超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报大模型新王诞生!Claude 3首次超越GPT4月之暗面杨植麟:互联网研发是「种树」,大模型研发是「承包森林」斯坦福AI项目作者对抄袭中国大模型致歉!承诺撤下相关模型ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLMAI明星创业公司大地震:创始人或淡出,合伙人及多名高管离职;斯坦福AI项目作者对抄袭中国大模型致歉,承诺撤下相关模型丨AI周报AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观中国 VC 谈大模型:AGI 是「理想国」,还是「乌托邦」?OpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-5今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理让ChatGPT-4o写了一篇关于AI的高考作文,你猜国内的大模型会打几分?【新课首发】催眠是「科学」还是「玄学」?国际权威师资带来临床催眠的应用实践让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。