Redian新闻
>
GAU-α:尝鲜体验快好省的下一代Attention

GAU-α:尝鲜体验快好省的下一代Attention

科技


©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络


FLASH:可能是近来最有意思的高效Transformer设计中,我们介绍了 GAU(Gated Attention Unit,门控线性单元),在这里笔者愿意称之为“目前最有潜力的下一代 Attention 设计”,因为它真正达到了“更快(速度)、更好(效果)、更省(显存)”的特点。 

然而,有些读者在自己的测试中得到了相反的结果,比如收敛更慢、效果更差等,这与笔者的测试结果大相径庭。本文就来分享一下笔者自己的训练经验,并且放出一个尝鲜版“GAU-α”供大家测试。

开源地址:

https://github.com/ZhuiyiTechnology/GAU-alpha




GAU-α

首先介绍一下开源出来的“GAU-α”在 CLUE 任务上的成绩单:


所有的模型都是 Base 版,上表显示的是 CLUE 任务上验证集上的结果,大家的运行方式和比较都是公平的,作为一个相对比较来说是合理的。另外,这里的 RoFormerV2* 并非RoFormerV2:自然语言理解的极限探索中的多任务版本,而是仅仅进行了 MLM 预训练的版本(该版本没开源),这样对比是因为 GAU-α 也仅仅进行了 MLM 预训练。

从表中可以看出,除了 WSC 这个数据量极少的“异类”外,GAU-α 在多数任务上都有优势,并且除了 WSC 外的平均成绩是最好的。其中,RoFormerV2* 与 GAU-α 的比较是最为公平的,因为它们的训练脚本、训练数据、整体结构都是一样的,唯一不同就是 GAU-α 是将 RoFormerV2* 中的 Attention+FFN 组合换成了两层 GAU,两者对比充分显示出了 GAU 设计“更好”的特点。

此外,我们在RoFormerV2:自然语言理解的极限探索介绍过 RoFormerV2 对结构进行了简化,从而获得更快的速度,具有同样整体结构的 GAU-α 也是如此,所以 GAU-α 的速度是比表中的 BERT、RoBERTa、RoFormer 都要快的,但平均效果却更胜一筹。更进一步的测试显示,当序列长度超过 512 时,GAU-α 的速度开始超过同样精简过的 RoFormerV2,并且显存占用更低,越长则对 GAU-α 更有利。



训练

现在介绍一下模型的训练细节,完整的代码已经开源到 Github 中,如有疑惑可以对照着代码来读。 

模型架构:GAU-α 就是将 RoFormerV2 的 Attention+FFN 换成了两层 GAU,在之前的文章中我们比较过两层 GAU 的计算量和参数量大致相当于 Attention+FFN 组合,所以这样的替换是合理的;RoFormerV2 的特点是保留了 Post Norm 结构,去掉了所有的 Bias 项,并且 Layer Norm 换成了 RMS Norm 的最简单变体,在 GAU-α 中也是如此。 

归一化:听说Attention与Softmax更配哦~中我们讨论过 Attention 的归一化问题,GAU-α 的 Attention 归一化选取了其中笔者自行提出的具有较好外推能力的熵不变性 Softmax(在 bert4keras 中暂称为 softmax_plus)。 

训练方式:在初始化方面笔者按照训练1000层的Transformer究竟有什么困难?进行了调整,因此无须 Wamrup 就可以直接训练,优化器用的是 LAMB,学习率分段线性衰减;预训练任务用的是全词 MLM,分词工具用百度的 LAC,这些跟 RoFormerV2 都是对齐的。好像值得一提的也就这么多了,确实没进行多大的改变。除了在归一化方式上花了点时间进行测试,其他方面也没多费时间,直接训练就得到了不错的效果。



小结

GAU 是笔者认为的“目前最有潜力的下一代 Attention 设计”,本文分享了 GAU 的一些训练经验,并开源了一个尝鲜版“GAU-α”。


送福利啦!


PaperWeekly独家周边盲盒

限量 200 份,免费包邮送

周边盲盒将随机掉落

众多读者要求返场的爆款贴纸

炼丹师必备超大鼠标垫

让你锦鲤护体的卡套组合


扫码回复「盲盒」 

立即免费参与领取 

👇👇👇



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯坦福博士提出超快省显存Attention,GPT-2训练速度提升3.5倍,BERT速度创纪录锐捷400G数据中心产品荣获Interop Tokyo 2022大奖 下一代数据中心扛鼎之作受肯定!车载感知的下一个「暴风眼」,摄像头赛道进入市场拉锯战军港之夜——Manchester Grand Hyatt San Diego航母景观房体验附带SD周边吃喝玩乐小记广告行业的下一场战役:帮客户省钱!GNOME 新文本编辑器尝鲜 | Linux 中国5/6 波士顿新闻汇总|即使是市长吴弭也有陪审团的职责 FDA限制强生COVID疫苗的使用 最高法院泄密调查的下一步是什么?打坐的正确姿势,好处,和一些切身体会(下)VOGUE的下一张新面孔,是你吗?精品投行Centerview Partners已开放 金融 2022 Internship!蒙特利尔这家宝藏餐厅藏不住了! 强推2大爆款新品, 8.5折请你尝鲜! 地道美味MaxShanghai’s ‘Psychological Emergency’ Warrants Attention顶级大厨“隐藏菜单”限时两周尝鲜! $0.99秒杀凉拌三丝! 超高品质新西兰黄金奇异果、蜜糖菠萝仅这周特价你的下一个家,可能是3D打印的?10亿美元大气除碳:科技业的下一个大生意苹果招聘AR/VR UI框架工程师,强调AR/VR可推动下一代交互体验Hiring | Real Estate Senior Accountant / Accounting Manager美苏的古巴导弹危机​“杰克船长”的前妻如何把一手好牌打得稀巴烂?“船长”的下一任是律师?微博-老虎凳下的圆食基辅,斯大林格勒,柏林!湿疹部位脱皮,是不是代表快好了?第四范式陈雨强:企业智能决策的下一代技术「强化学习 + 环境学习」红帽宣布 RHEL 9:企业 IT 的下一代骨干系统 | Linux 中国“迷你仓”背后:年轻人尝鲜,创业者开荒如果灵魂对自由不再向往,我们的下一代会怎样?房地产和互联网翻篇,那中国的下一个首富会诞生在哪里?中国房地产业的下一个十年  | 公司观察《暗处的女儿》出来走走GNOME 新终端程序尝鲜 | Linux 中国【新品上架】尝鲜一些“时令”牛仔恭喜【曼大】学员斩获Deloitte Internship Offer!【健康】来自营养师的建议:尝试7种方式,减少我们食物中的“坏糖”With Bittersweet Memories, Students Leave Shanghai in Droves建设下一代 Web 开放技术——WebContainer
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。