Redian新闻
>
图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次

图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次

公众号新闻
机器之心报道

编辑:杜伟、陈萍

论文中的图有时会出现与实现代码不对应的情况,这会让读者头大,不知是有意还是无意为之。这次,没想到大名鼎鼎的 Transformer 论文也「翻车」了。
2017 年,谷歌大脑团队在其论文《Attention Is All You Need》中创造性的提出 Transformer 这一架构,自此这一研究一路开挂,成为当今 NLP 领域最受欢迎的模型之一,被广泛应用于各种语言任务,并取得了许多 SOTA 结果。

不仅如此,在 NLP 领域一路领先的 Transformer,迅速席卷计算机视觉(CV)、语音识别等领域,在图像分类、目标检测、语音识别等任务上取得良好的效果。


论文地址:https://arxiv.org/pdf/1706.03762.pdf

从推出至今,Transformer 已经成为众多模型的核心模块,比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就连近段时间爆火的 ChatGPT 也依赖 Transformer,而后者早已被谷歌申请了专利。

图源:https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf

此外 OpenAI 发布的系列模型 GPT(Generative Pre-trained Transformer),名字中带有 Transformer,可见 Transformer 是 GPT 系列模型的核心。

与此同时,最近 OpenAI 联合创始人 Ilya Stutskever 在谈到 Transformer 时表示,当 Transformer 刚发布之初,实际上是论文放出来的第二天,他们就迫不及待的将以前的研究切换到 Transformer ,后续才有了 GPT。可见 Transformer 的重要性不言而喻。

6 年时间,基于 Transformer 构建的模型不断发展壮大。然而现在,有人发现了 Transformer 原始论文中的一处错误。

Transformer 架构图与代码「不一致」

发现错误的是一位知名机器学习与 AI 研究者、初创公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出,原始 Transformer 论文中的架构图有误,将层归一化(LN)放置在了残差块之间,而这与代码不一致。


Transformer 架构图如下左,图右为 Post-LN Transformer 层(出自论文《On Layer Normalization in the Transformer Architecture》[1])。


不一致的代码部分如下,其中 82 行写了执行顺序「layer_postprocess_sequence="dan"」,表示后处理依次执行 dropout、residual_add 和 layer_norm。如果上图左中的 add&norm 理解为:add 在 norm 上面,即先 norm 再 add,那确实代码和图不一致。


代码地址:
https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e…

接下来,Sebastian 又表示,论文《On Layer Normalization in the Transformer Architecture》认为 Pre-LN 表现更好,能够解决梯度问题。这是很多或者大多数架构在实践中所采用的,但它可能导致表示崩溃。

当层归一化在注意力和全连接层之前被放置于残差连接之中时,能够实现更好的梯度。


因此,虽然关于 Post-LN 或 Pre-LN 的争论仍在继续,但另一篇论文结合了这两点,即《ResiDual: Transformer with Dual Residual Connections》[2]。


对于 Sebastian 的这一发现,有人认为,我们经常会遇到与代码或结果不一致的论文。大多数是无心之过,但有时令人感到奇怪。考虑到 Transformer 论文的流行程度,这个不一致问题早就应该被提及 1000 次。

Sebastian 回答称,公平地讲,「最最原始」的代码确实与架构图一致,但 2017 年提交的代码版本进行了修改,同时没有更新架构图。所以,这实在令人困惑。


正如一位网友所说,「读代码最糟糕的是,你会经常发现这样的小变化,而你不知道是有意还是无意。你甚至无法测试它,因为你没有足够的算力来训练模型。」

不知谷歌之后会更新代码还是架构图,我们拭目以待!

参考链接:
论文[1]:https://arxiv.org/pdf/2002.04745.pdf
论文[2]https://arxiv.org/pdf/2304.14802.pdf

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架悉尼女子自家车道停车,被罚款$283!发帖喊冤“此前一直没事”,网友:早该罚了...彻底解决ChatGPT健忘症!突破Transformer输入限制:实测支持200万个有效token大模型的好伙伴,浅析推理加速引擎FasterTransformerICLR 2023 | DIFFormer: 扩散过程启发的Transformer什么叫人生赢家。。活到九十九?比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤transformer的细节到底是怎么样的?Transformer 连环18问!ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘微软新出热乎论文:Transformer扩展到10亿token20+篇里程碑式论文,带你从「Transformer的前世」速通到ChatGPT招聘 | 百度大搜-GNN/Transformer/图网络+问答+搜索-实习生/社招-北京Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!星标破10万!Auto-GPT之后,Transformer越新里程碑RWKV论文燃爆!将RNN崛起进行到底!可扩百亿级参数,与Transformer表现相当!在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数微信和抖音成就了很多愚昧的人!PackedBert:如何用打包的方式加速Transformer的自然语言处理任务CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey江苏90后女教师自曝“丑闻”,内容劲爆毁三观,校领导也牵涉其中1000000000!微软改进Transformer一次能记住这么多token了清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型蔡天凤案重大进展!前公公是军师身份,真正动手的是另外三人CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合炸裂!微软新作LongNet:将Transformer扩展到10亿个Tokens无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章Transformer在量化投资中的应用资本下的全民免费医疗万分昴贵此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处图与代码不一致,Transformer论文被发现错误!!!清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。