Redian新闻
>
人类数据告急,微软OpenAI开始用AI喂AI,奥特曼放话:未来所有数据都将变成合成数据

人类数据告急,微软OpenAI开始用AI喂AI,奥特曼放话:未来所有数据都将变成合成数据

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

人类数据缺缺缺,AI被迫开始吃AI生产的数据了!

这是微软OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据,然后现在……这些数据快被用完了。

BUT,要训练更好的大模型,多少数据都不够。

据《金融时报》介绍,不少公司正把大模型生成的结果、也就是所谓的合成数据(Synthetic data),喂给参数量更小的大模型吃,发现效果还不错。

对于使用合成数据,OpenAI的CEO Sam Altman不仅不介意,还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为:

合成数据可能加速通往“超级智能”AI系统的道路。

所以,究竟哪些大模型已经在用合成数据了,这些合成数据又是从何而来?

大AI合成数据,小AI吃

这些所谓的合成数据,本质上是用当前表现较好的大模型生成的数据,经过人工调整后,再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话,并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”,正在进行一堂虚拟的数学教学。同时,Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误,人类员工就会插手对文本进行修正

尽管确实还需要人力,但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么,什么样的大模型会用到这些合成数据呢?

微软研究院最近有研究表明,合成数据可以用于训练比GPT-4或PaLM-2稍微小一的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例,这个数据集被证明虽然只包含4岁小孩能理解的单词,但用于训练一个大模型之后,同样可以生成语法正确、阅读体验流畅的故事:

对于使用合成数据的理由,Cohere的CEO Aidan Gomez认为:

能从网上获取数据当然更好,但网络数据太杂乱了,完全无法满足需求。相比之下,合成数据已经非常多了,即使它还没被广泛传播。

背后产业链已出现

目前,包括Scale AI、Gretel.ai等企业,已经开始给外界提供合成数据服务。

先是Scale AI,旗下就推出了一款合成数据产品Scale Synthetic,用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中,还提到GPT-4的数据集中,有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai,从官网来看,它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作,以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为,合成数据的好处在于,它保留了数据集中所有个人的隐私,同时仍然保持其统计学意义上的完整性(statistical integrity)

但并非所有人都接受合成数据这种“神奇操作”,目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内,有不少搞大模型的企业仍然坚持这一做法,并认为它可能生成更好的AI,甚至从中诞生出“超级智能”。

另一部分则认为,合成数据终将让AI“自食其”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明:

使用合成数据训练,会让模型出现不可逆转的缺陷:

忘记那些“不可能发生的事件”,最终被自己生成的数据毒害。

有网友认为,这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行

还有网友调侃,这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗?

参考链接:
[1]https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de

[2]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
[3]https://arxiv.org/pdf/2306.11644.pdf
[4]https://arxiv.org/pdf/2305.17493v2.pdf

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《美国宪法》和《圣经》都是AI生成?AI检测器不靠谱,人类数据有限会限制AI发展再不跟Meta联合,微软就被OpenAI一个人掏空了OpenAI或探索自研芯片,苹果商店现黄色软件,微软或10月13日收购暴雪,前大众设计负责人加盟长安,这就是今天的其他大新闻!争夺客户、不愿开放技术细节,微软与OpenAI“相爱相杀”?外媒揭开合作背后的隐秘摩擦人类数据,要被 OpenAI 用完了,然后呢?微软Office全家桶版GPT-4定价每月30美元,Azure牵手Llama 2印度要求中国手机厂商在印高管需印籍,微信30元内商品将包邮,蔚来回应与奔驰共享换电站,微软收购暴雪受阻,这就是今天的其他大新闻!前哨速览:OpenAI特殊薪酬模式披露,微软云服务营收被曝若与你重逢 - 初恋篇OpenAI 首次发布 ChatGPT 课堂使用指南,哈佛耶鲁也开始用 AI 当老师刚刚!杜鲁多放话:明年中开始降息!加拿大经济衰退提前:房价恐暴跌10%!新“Siri”之战开打,微软、亚马逊、OpenAI已入场人类数据告急,微软OpenAI开始用AI喂AI,Altman放话:未来所有数据都将变成合成数据翟欣欣,潘金莲和武大郎们苹果正式推送 iOS 17;新品发布会 3 天前,微软首席产品官离职;OpenAI 将推多模态模型|极客早知道Windows 下跌 12%、PC硬件卖不动,微软市值仍破18万亿全靠Open AI从“拾穗”到“罂粟花”微软OpenAI联手围剿英伟达,首款自研AI芯片下月发布!看来所有的AI智能都怕沾希腊伪史问题马斯克放话:年底全面自动驾驶,未来机器人将多于人类(附讲话全文)5092 血壮山河之武汉会战 黄广战役 2440亿美元!​亚马逊投资Anthropic公司 预对战微软OpenAl微软OpenAI联盟,并非牢不可破一篇入魂!100年来所有迪士尼公主5分钟讲完,最逆天的竟然是她?!《我爱你亲爱的祖国》&《明白》为了赚钱,OpenAI不想干的,微软全做了。。。GPT-4太烧钱,微软想甩掉OpenAI?曝出Plan B:千块GPU专训「小模型」,开启必应内测【经济】杜鲁多放话:预计明年中开始降息!专家:加拿大经济衰退来了!人类数据告急,微软OpenAI开始用AI喂AI,Altman放话:未来所有数据都将变成合成数据|GGView人类创造的数据太贵了!开发者悄悄使用AI合成数据训练模型澳洲油价创新高,$2/升或将变常态!业内人士:未来还要涨!貌合神离,微软和OpenAI要分家???奥特曼YC演讲:“套壳”OpenAI,注定消亡!WAIC 2023 | 微软Office产品团队技术负责人蔡玮鑫:Copilot中大语言模型应用实践经验CEO们都放话了:未来三年,全体白领回办公室,朝九晚五!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。