Redian新闻
>
Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了

Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了

公众号新闻



  新智元报道  

编辑:编辑部
【新智元导读】图与代码不一致的论文,很「常见」,不过提出了Transformer的开山鼻祖论文,竟然也出现了同样的错误?

今天,AI圈被一个惊天「翻车」刷屏了。
谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文 《Attention Is All Your Need》 中的图,被网友扒出与代码并不一致。

论文地址:https://arxiv.org/abs/1706.03762
自2017年问世以来,Transformer已经成为AI领域的基石王者。就连大红大紫的ChatGPT真正的幕后大佬也是它。
2019年,谷歌还专门为它申请了专利。
归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。
据Google Scholar,截止目前,这篇奠基之作已有7万多次的引用。
所以,ChatGPT的奠基石都不稳了?

作为「开山鼻祖」的论文,结构图竟是错的?


Lightning AI创始人、机器学习研究者Sebastian Raschka发现,这篇论文中Transformer的图是错误的。
图中被圈出的地方,LayerNorms是在注意力和全连接层之后。在残差块之间放置层归一化,会导致输出层附近参数的预期梯度很大。
而且,这也与代码不一致。

代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e
不过有网友指出,Noam shazeer在几周后对代码进行了纠正。
随后,Sebastian称,在论文Layer Normalization in the Transformer Architecture中,Pre-LN表现得更好,可以解决梯度问题。
这是很多或者大多数架构在实践中所采用的,但它可能导致表征崩溃。
如果层归一化在注意力和全连接层之前被放置在残差连接之中,就会实现更好的梯度。
Sebastian提出,虽然关于使用Post-LN或Pre-LN的讨论仍在进行中,但也有一篇新论文提议把二者结合起来。

论文地址:https://arxiv.org/abs/2304.14802
在这种双残差Tranformer中,表征崩溃和梯度消失的问题都得到了解决。

网友热议

针对论文中的疑点,有网友指出:中间不是已经有了PreLN和PostLN了吗?
Sebastian回答说,自己也觉得有点奇怪。或许2nd LN指的是最后一个输出层,而不是每个transformer块,但他对此也不确定。
有网友表示:「我们经常遇到与代码或结果不匹配的论文。大多数就是出于错误,但有时也会让人很奇怪。而这篇论文已经流传甚久了,为什么这种问题此前从没被人提出过,这真的很奇怪。」
Sebastian表示,公平地讲,最原始的代码是和图片一致的,但他们在2017年修改了代码版本,却没有更新图片。所以,这很令人困惑。
有网友表示,已经有论文在NormFormer中展示了一个不太复杂的架构,而他的团队最近也证实了他们的结果。而ResiDual论文没有在任何地方提到NormFormer,这让人很惊讶。
同时,评论区不断出现网友证实:Transformers中使用的LN,与CNN中使用的方式并不同。
所以,论文真的存在漏洞,还是乌龙事件?
让我们静观后续。
参考资料:
https://twitter.com/rasbt/status/1655575611979489282




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
即插即用!Apple新作FastViT: 又快又强的视觉Transformer,端侧部署无压力!1975年宽松一点时,见到过瞎子艺人在茶馆讲半荤段子比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤ICLR 2023 | DIFFormer: 扩散过程启发的Transformer图与代码不一致,Transformer论文被发现错误!!!大模型的好伙伴,浅析推理加速引擎FasterTransformer基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘Transformer在量化投资中的应用ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器那些隐秘的悲伤RWKV论文燃爆!将RNN崛起进行到底!可扩百亿级参数,与Transformer表现相当!转摘:某大佬的“中美日后宫团”清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界transformer的细节到底是怎么样的?Transformer 连环18问!给自己创造上报纸的机会在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下招聘 | 百度大搜-GNN/Transformer/图网络+问答+搜索-实习生/社招-北京此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架PackedBert:如何用打包的方式加速Transformer的自然语言处理任务无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey看了「翻车」的王诗龄我才明白,为什么越乖的孩子,长大后心理问题越多?大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖微软新出热乎论文:Transformer扩展到10亿token炸裂!微软新作LongNet:将Transformer扩展到10亿个TokensCVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法20+篇里程碑式论文,带你从「Transformer的前世」速通到ChatGPTGUCCI骨子里的符号,是“性感”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。