为什么Transformer一般使用LayerNorm？

2024-04-28 05:04

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

要知道近年来特别出现了很多Transformer面试题（毕竟当前AI顶流）。这里Amusi特别分享15道Transformer高频面试题（求职群里有数百道Transformer题目，还有答案），希望对你有所帮助。

介绍Transformer和ViT
介绍Transformer的QKV
介绍Layer Normalization
Transformer训练和部署技巧
介绍Transformer的位置编码
介绍自注意力机制和数学公式
介绍Transformer的Encoder模块
介绍Transformer的Decoder模块
Transformer和Mamba（SSM）的区别
Transformer中的残差结构以及意义
为什么Transformer适合多模态任务？
Transformer的并行化体现在哪个地方？
为什么Transformer一般使用LayerNorm？
Transformer为什么使用多头注意力机制？
Transformer训练的Dropout是如何设定的？

问：为什么Transformer一般使用LayerNorm？

答：Transformer模型中的注意力机制会使不同位置的特征之间存在依赖关系。Batchnorm是对一个batch中的所有样本的每个特征进行归一化，这会破坏注意力机制所学习到的位置信息。而LayerNorm是对每个样本的每个特征进行归一化，这样可以保留位置信息。此外，Batchnorm在训练过程中需要计算每个batch的均值和方差，这在Transformer模型中会带来很大的计算开销。而LayerNorm只需要计算每个样本的均值和方差，计算开销更小。

LayerNorm的优点：能够缓解梯度饱和问题、能够保留注意力机制所学习到的位置信息、计算开销更小

求职群还分享了很多AI算法岗、软开岗的大厂面试真题，部分截图如下：

如果你还没刷面试题？想看最新面经和答案？那得赶紧加入求职群！最新校招、实习、社招、教职信息、大厂面经和企业内推全都有！Amusi 强烈建议大家扫码领券加入2024年求职群（主要面向25届、26届及之后的同学）！

最大的AI算法岗和开发岗求职群

AI算法岗和开发岗求职群（知识星球） 是一个面向全体学生和算法工程师/研究员的求职交流平台。旨在分享 AI算法岗和开发岗的校招/社招准备攻略、面试题库、面试经验、Offer选择、内推机会、学习路线、求职答疑和海量学习资料等内容。

涉及深度学习，机器学习，计算机视觉，图像处理，自然语言处理，SLAM，大数据，数据分析，自动驾驶，机器人，推荐系统，Java，C/C++和Python等方向。

求职群里既有2025届、2024届和往届求职的大佬/学生，也有刚入学的学生（大一/大二/研一等），还有很多公司里的技术大牛、研究员和算法工程师。目前星球的成员已经超过5800人！

我Amusi 每天都会在求职群里发帖/交流，回答问题，分享面试题，分享面试心得，分享内推信息，分享学习资料等。划重点！星球分享的资料和问答已经超过5000条！

注：因为星球里人蛮多的，所以建议大家匿名提问，防止"隐私泄露"

▲扫码领券，进群！

求职群（部分内容精选）

群主和嘉宾既有2024届/2025届和往届参与秋招拿到算法Offer，也有已经毕业工作多年的算法研究员/工程师。涵盖Apple、谷歌、Meta、亚马逊、微软、NVIDIA、Uber、IBM、腾讯、阿里巴巴、百度、字节跳动、美团、拼多多、京东、快手、商汤、旷视、滴滴、OPPO、VIVO、华为、小米、大疆、平安科技等上百家企业。