Redian新闻
>
大模型架构创新已死?

大模型架构创新已死?

公众号新闻
金磊 白交 发自 凹非寺
量子位 | 公众号 QbitAI

一场围绕大模型自研和创新的讨论,这两天在技术圈里炸了锅。

起初,前阿里技术VP贾扬清,盆友圈爆料吐槽:有大厂新模型就是LLaMA架构,但为了表示不同,通过改变开源代码名字、替换几个变量名……

一石激起千层浪,更晚一些时候,“大厂”被与零一万物关联,其刚发布的新模型Yi-34B被指与LLaMA架构如出一辙。

零一万物很快给出了说明和回应。但热议并未就此平息,甚至围绕大模型原创、自研的标准,开始被更进一步争论。

而初步激辩中指向的结论——冷峻又真实:

大模型的架构创新,可能早就死了。

好比烤鸭这道菜的菜谱公开之后,核心方法和步奏,都已经被固定了。

所以如果的大模型研发,都无法再在架构层面另起炉灶……那自研国产大模型,研它还能有啥用?

争议

就在近日,贾扬清的吐槽,迅速火上了海外技术社区热搜。

并且很快,零一万物就被关联起来。

因为就在Yi-34B首次推出后,迅速横扫了各项中英文评测榜单,在英文领域也超越了Llama-2 70B和Falcon-180B等一众大尺寸大模型……一时风头无两、木秀于林。

贾扬清爆料之后,一封Hugging Face的邮件也对外曝光了,邮件核心内容,就是Yi模型与已经开源的LLaMA架构上存在重合,虽然张量命名不同,但按照开源社区的规则和规范,需要作出调整。

这也成为外界对于零一万物和Yi-34B模型自研性的质疑所在。

零一万物很快给出了说明和回应,核心有两点:

第一,Yi模型确实沿用了公开的架构,但和LLaMA一样,都基于的是GPT成熟结构。

第二,大模型的研发中,模型结构只是模型训练的一部分,还有包括数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法以及对评估指标在内的核心技术挑战和能力……在大量训练实验过程中,由于实验执行需求对代码做了更名,所以处于尊重开源社区的反馈,将代码进行更新,也为更好融入Transformer生态。

零一的回应,有人表示理解,比如开源社区领袖Stella Biderman,就认为说谁抄袭LLaMA是无稽之谈,因为所有做大模型研发的团队,现在都几乎“华山一条路”了。

但更多的激辩,还在持续。

激辩

辩论的核心话题,开始不断指向——如何定义大模型的创新?创新的标准该是什么?

在一则广为流传的群聊记录中,大模型领域知名“布道者”符尧博士,提出了现状和困惑。

他认为大模型主流架构,就是一个“天下诗歌不断抄”的过程。LLaMA的架构抄的Chinchilla,chinchilla抄的Gopher,Gopher抄的GPT3……每个都是一两行的改动。

而且在Hugging Face上,架构一模一样但名字不同的模型比比皆是……

但需要强调的是,大模型的创新或不同,核心应该关注的是训练方法和数据配比——而这些并不会反映在架构上。

以及如果严格来论,目前国内的自研大模型,不论是零一万物的Yi,还是百川智能的Baichuan,或者阿里旗下的通义千问,架构上和LLaMA都是一致的。

大模型的创新,看架构没有意义。

另一则广为流传的讨论,来自猴子无限的尹伯昊,他表示自己亲手玩过各类模型,自己也大模型从业,可以说说自己的看法。

第一,目前使用LLaMA架构已经是开原模型的最优解。因为LLaMA开源大模型已经实现了断崖式领先,有了大量工具链。国内外各种大模型的预训练,也都是保持了相同或相似的架构。

第二,相同的架构可以做出完全不同的模型,因为大模型的训练是一个充分的系统工程,考察的因素有很多,最后的能力和效果也与这个系统工程息息相关。

但尹伯昊也强调,大模型创业者没必要因为自研ego作祟,就不强调使用已有框架。

从现在的趋势来看,开源大模型生态的发展,其实有统一的架构,对于业内更多开发者的切换利大于弊。

实际上,上述圈内人的发言,也在进一步揭露大模型的现状和真相:

大模型架构创新,早就结束了。

大模型架构创新已死?

如果从大模型社区长期的发展过程来看,我们不难发现一种趋势——向通用化收拢

因为基本上国际主流大模型都是基于Transformer的架构;而后对attention、activation、normalization、positional embedding等部分做一些改动工作。

简而言之,Transformer这个架构似乎已然是固定的状态

有圈内团队举例,好比让不同的厨师都去做北京烤鸭,原材料和步骤定然是大同小异的(架构);而最终决定谁做出来的北京烤鸭更好吃,区别更多的是在于厨师本身对火候、烹调技术的掌握(数据参数、训练方法等)。

而这种讨论,几乎也打破了圈外对于热潮中“大模型创新”、“国产大模型”的某些期待,认为大模型的研发,可以完全另起炉灶。

事实是,架构层面,早就几近定型了。

OpenAI用GPT-3彻底点燃了大模型架构基础,LLaMA在GPT基础上作出了总结并且对外开源,其后更多的玩家,沿着他们的藩篱前行。零一万物在最新的声明中也表示,GPT/LLaMA 的架构正在渐成行业标准。

这种事实,也让更多围观这场争议和讨论的人联想到智能手机的系统往事。

当时iPhone发布,带来了闭源的iOS。

其后开源阵营中,Android在谷歌的大力扶植中上位,成功成为开源世界的第一名,并在其后真正成为了几乎“唯一的一个”。

所以GPT和LLaMA,是不是就是iOS和Android的重演?

然而区别于手机操作系统,国产大模型或许还会有不同。

正如在讨论中,大模型创新被强调的训练方法、数据配比,以及更加重要的开发者生态。

iOS和Android之时,完全是太平洋东岸的独角戏。

但现在,大模型热潮中,国产玩家其实面临机遇,如果能在初期就能被全球开发者认可,那最后获得话语权和更长远定义权的,一定是生态最强的那个玩家。

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》,启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司,参与共创,分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人:郑钰瑶(微信:CarolineZheng_,请备注企业+姓名)。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
朱啸虎:不要追逐大模型,要跟着大模型进化李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型身家720亿!邝肖卿首次成为中国女首富;零一万物回应大模型架构争议;字节跳动上半年营收约为540亿美元;雀巢回应网易举报丨邦早报小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大20B跨级挑战70B性能!国产开源大模型打造大模型新标杆大模型进入行业的 X 种示范| 2023 中国「+大模型」先锋案例 TOP10 评选启动NUS、NTU团队发布医疗大模型综述,全面介绍大模型在医疗领域的最新研究进展交朋友,顺其自然OpenAI首届开发者大会内容曝光;马斯克xAI大模型进展公布;中国第二批大模型备案获批丨AIGC大事日报谎言的力量芯至科技尹文:拆解架构创新四大路径,打造10倍性价比大模型推理芯片丨GACS 2023站上大模型制高点:我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘大模型落地最后一公里:111页全面综述大模型评测腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新苹果创新大模型压缩技术,大模型有机会塞进手机里了AI公司第四范式IPO上市;雷军王小川联手搞小米大模型;百度发布量子领域大模型;AI新技术90秒识别癌;苹果疯狂购买AI初创公司手机大模型爆发:vivo 发布自研蓝心大模型,参数追赶 GPT-3昔日百亿主观冠军转型做量化,主观已死?UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源《谷雨立夏间》(4)立夏的柠檬北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型OpenAI探索将ChatGPT引入课堂;李开复回应大模型架构争议|AIGC周观察第二十五期重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章大模型改变世界,这家公司改变大模型免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!职涯中篇-【起点之起点5】-风信子回头是岸-【天命1】-新篇-跨入北美大行清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中那些挑战Transformer的模型架构都在做些什么NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS北大王选实验室 | 摘要已死?AI的大模型时代 ≠ 只有大模型的AI时代
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。