Redian新闻
>
LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比

LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比

公众号新闻

来自:ChallengeHub

进NLP群—>加入NLP交流群

1

LLama

  • [GPT3] 使用RMSNorm(即Root Mean square Layer Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer normalization。
  • [PaLM]使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。
  • [GPTNeo]使用Rotary Embeddings进行位置编码,该编码可以参考论文 Roformer: Enhanced transformer with rotary position embedding。
  • 使用了AdamW优化器,并使用cosine learning rate schedule,
  • 使用因果多头注意的有效实现来减少内存使用和运行时间。该实现可在xformers

2

Palm

  • 采用SwiGLU激活函数:用于 MLP 中间激活,采用SwiGLU激活函数:用于 MLP 中间激活,因为与标准 ReLU、GELU 或 Swish 激活相比,《GLU Variants Improve Transformer》论文里提到:SwiGLU 已被证明可以显著提高模型效果
  • 提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B 中一样,使用的是标准“序列化”公式。并行公式使大规模训练速度提高了大约 15%。消融实验显示在 8B 参数量下模型效果下降很小,但在 62B 参数量下没有模型效果下降的现象。
  • Multi-Query Attention:每个头共享键/值的映射,即“key”和“value”被投影到 [1, h],但“query”仍被投影到形状 [k, h],这种操作对模型质量和训练速度没有影响,但在自回归解码时间上有效节省了成本。
  • 使用RoPE embeddings:使用的不是绝对或相对位置嵌入,而是RoPE,是因为 RoPE 嵌入在长文本上具有更好的性能 ,
  • 采用Shared Input-Output Embeddings:输入和输出embedding矩阵是共享的,这个我理解类似于word2vec的输入W和输出W':

3

GLM

  • Layer Normalization的顺序和残差连接被重新排列,
  • 用于输出标记预测的单个线性层;
  • ReLU s替换为GELU s
  • 二维位置编码

4

BLOOM

  • 使用 ALiBi 位置嵌入,它根据键和查询的距离直接衰减注意力分数。与原始的 Transformer 和 Rotary 嵌入相比,它可以带来更流畅的训练和更好的下游性能。ALiBi不会在词嵌入中添加位置嵌入;相反,它会使用与其距离成比例的惩罚来偏向查询键的注意力评分。

  • Embedding Layer Norm 在第一个嵌入层之后立即使用,以避免训练不稳定。

  • 使用了 25 万个标记的词汇表。使用字节级 BPE。这样,标记化永远不会产生未知标记

  • 两个全连接层:

5

GPT

GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention,如下图所示:




进NLP群—>加入NLP交流群


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AIGC疯狂一夜!英伟达投下“核弹”、Google版ChatGPT开放,盖茨都震惊了MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)可单间或整租|9.1入住|室内洗烘|中央空调|近Malden地铁站高级公寓Loft结构4b2.5b租金800+,包水金融圈注意了!BloombergGPT来了创新基金会:大陆创新能力正超美Belmont公私校大对比:Belmont Hill vs Belmont High叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools第三届 冇(Mǎo)国际青年影像周 开始征片啦!Trouble Is a FriendAllston三室三卫带阳台仅一套!自带洗衣烘干机!顶楼loft结构!Kenmore/Fenway独特Loft结构Studio!巨大空间完全可做一室一厅!如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍终于 !中文基座模型CPM-Bee开源了刺激!Bloomberg重磅发布金融版“ChatGPT”,华尔街Banker慌了…Allston超强稀有三室三卫带阳台!自带洗衣烘干机!顶楼loft结构!Ubuntu 23.04 系统开放下载:Linux 6.2 内核、GNOME 44 桌面环境GPT作文能力比拼:GPT3.5、GPT4、百度文心一言、讯飞星火ChatGPT路线图曝光:没有GPT-5、识图功能要等到明年、GPT-3或将开源Linux内核、LLVM、GCC均已支持龙芯LoongArch架构英国秋招大爆发!高盛、BlackRock、BCG、Meta...新开300+岗位!【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】Bloomberg上线金融版“ChatGPT”,华尔街Banker恐慌…(附使用手册)Flame tree flowers in full bloom精选Quant岗位 | Apple、ByteDance、Googlel等公司持续热招!戴森官网V15、V8、Big Ball、Ball吸尘器立减150元!精选MLE岗位 | Apple、ByteDance、Googlel等公司持续热招!因为你金融领域FinBERT、BloombergGPT以及法律领域微调模型LawGPT_zhMLB渔夫帽、MarbleMore牛肉、阿华田蛋糕卷、bablov咖啡杯、冰丝凉席,超值团购开启!全免中介费!Allston三室三卫带阳台+洗衣烘干机!顶楼loft结构!彭博推出BloombergGPT——专为金融行业从头打造的500亿参数大语言模型故事介绍:古哨惊魂 (Oh, Whistle, and I\'ll Come to You, My Lad by M. R. J二年了,我还是不敢去想【外汇商品】2023Q1全球黄金供需分析及结构对比
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。