大模型架构创新已死？

公众号新闻

2023-11-15 07:11

金磊白交发自凹非寺
量子位 | 公众号 QbitAI

一场围绕大模型自研和创新的讨论，这两天在技术圈里炸了锅。

起初，前阿里技术VP贾扬清，盆友圈爆料吐槽：有大厂新模型就是LLaMA架构，但为了表示不同，通过改变开源代码名字、替换几个变量名……

一石激起千层浪，更晚一些时候，“大厂”被与零一万物关联，其刚发布的新模型Yi-34B被指与LLaMA架构如出一辙。

零一万物很快给出了说明和回应。但热议并未就此平息，甚至围绕大模型原创、自研的标准，开始被更进一步争论。

而初步激辩中指向的结论——冷峻又真实：

大模型的架构创新，可能早就死了。

好比烤鸭这道菜的菜谱公开之后，核心方法和步奏，都已经被固定了。

所以如果的大模型研发，都无法再在架构层面另起炉灶……那自研国产大模型，研它还能有啥用？

争议

就在近日，贾扬清的吐槽，迅速火上了海外技术社区热搜。

并且很快，零一万物就被关联起来。

因为就在Yi-34B首次推出后，迅速横扫了各项中英文评测榜单，在英文领域也超越了Llama-2 70B和Falcon-180B等一众大尺寸大模型……一时风头无两、木秀于林。

贾扬清爆料之后，一封Hugging Face的邮件也对外曝光了，邮件核心内容，就是Yi模型与已经开源的LLaMA架构上存在重合，虽然张量命名不同，但按照开源社区的规则和规范，需要作出调整。

这也成为外界对于零一万物和Yi-34B模型自研性的质疑所在。

零一万物很快给出了说明和回应，核心有两点：

第一，Yi模型确实沿用了公开的架构，但和LLaMA一样，都基于的是GPT成熟结构。

第二，大模型的研发中，模型结构只是模型训练的一部分，还有包括数据工程、训练方法、baby sitting（训练过程监测）的技巧、hyperparameter设置、评估方法以及对评估指标在内的核心技术挑战和能力……在大量训练实验过程中，由于实验执行需求对代码做了更名，所以处于尊重开源社区的反馈，将代码进行更新，也为更好融入Transformer生态。

零一的回应，有人表示理解，比如开源社区领袖Stella Biderman，就认为说谁抄袭LLaMA是无稽之谈，因为所有做大模型研发的团队，现在都几乎“华山一条路”了。

但更多的激辩，还在持续。

激辩

辩论的核心话题，开始不断指向——如何定义大模型的创新？创新的标准该是什么？

在一则广为流传的群聊记录中，大模型领域知名“布道者”符尧博士，提出了现状和困惑。

他认为大模型主流架构，就是一个“天下诗歌不断抄”的过程。LLaMA的架构抄的Chinchilla，chinchilla抄的Gopher，Gopher抄的GPT3……每个都是一两行的改动。

而且在Hugging Face上，架构一模一样但名字不同的模型比比皆是……

但需要强调的是，大模型的创新或不同，核心应该关注的是训练方法和数据配比——而这些并不会反映在架构上。

以及如果严格来论，目前国内的自研大模型，不论是零一万物的Yi，还是百川智能的Baichuan，或者阿里旗下的通义千问，架构上和LLaMA都是一致的。

大模型的创新，看架构没有意义。

另一则广为流传的讨论，来自猴子无限的尹伯昊，他表示自己亲手玩过各类模型，自己也大模型从业，可以说说自己的看法。

第一，目前使用LLaMA架构已经是开原模型的最优解。因为LLaMA开源大模型已经实现了断崖式领先，有了大量工具链。国内外各种大模型的预训练，也都是保持了相同或相似的架构。

第二，相同的架构可以做出完全不同的模型，因为大模型的训练是一个充分的系统工程，考察的因素有很多，最后的能力和效果也与这个系统工程息息相关。

但尹伯昊也强调，大模型创业者没必要因为自研ego作祟，就不强调使用已有框架。

从现在的趋势来看，开源大模型生态的发展，其实有统一的架构，对于业内更多开发者的切换利大于弊。

实际上，上述圈内人的发言，也在进一步揭露大模型的现状和真相：

大模型架构创新，早就结束了。

大模型架构创新已死？

如果从大模型社区长期的发展过程来看，我们不难发现一种趋势——向通用化收拢。

因为基本上国际主流大模型都是基于Transformer的架构；而后对attention、activation、normalization、positional embedding等部分做一些改动工作。

简而言之，Transformer这个架构似乎已然是固定的状态。

有圈内团队举例，好比让不同的厨师都去做北京烤鸭，原材料和步骤定然是大同小异的（架构）；而最终决定谁做出来的北京烤鸭更好吃，区别更多的是在于厨师本身对火候、烹调技术的掌握（数据参数、训练方法等）。

而这种讨论，几乎也打破了圈外对于热潮中“大模型创新”、“国产大模型”的某些期待，认为大模型的研发，可以完全另起炉灶。

事实是，架构层面，早就几近定型了。

OpenAI用GPT-3彻底点燃了大模型架构基础，LLaMA在GPT基础上作出了总结并且对外开源，其后更多的玩家，沿着他们的藩篱前行。零一万物在最新的声明中也表示，GPT/LLaMA 的架构正在渐成行业标准。

这种事实，也让更多围观这场争议和讨论的人联想到智能手机的系统往事。

当时iPhone发布，带来了闭源的iOS。

其后开源阵营中，Android在谷歌的大力扶植中上位，成功成为开源世界的第一名，并在其后真正成为了几乎“唯一的一个”。

所以GPT和LLaMA，是不是就是iOS和Android的重演？

然而区别于手机操作系统，国产大模型或许还会有不同。

正如在讨论中，大模型创新被强调的训练方法、数据配比，以及更加重要的开发者生态。

iOS和Android之时，完全是太平洋东岸的独角戏。

但现在，大模型热潮中，国产玩家其实面临机遇，如果能在初期就能被全球开发者认可，那最后获得话语权和更长远定义权的，一定是生态最强的那个玩家。

— 完 —

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》，启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司，参与共创，分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人：郑钰瑶（微信：CarolineZheng_，请备注企业+姓名）。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

大模型架构创新已死？

金磊 白交 发自 凹非寺量子位 | 公众号 QbitAI

争议

激辩

大模型架构创新已死？

金磊白交发自凹非寺
量子位 | 公众号 QbitAI