谷歌发布技术报告:PaLM-2 推理超越 GPT-4,训练文本是第一代近 5 倍
PaLM 2 Technical Report
https://arxiv.org/abs/2305.10403
PaLM-2 亮点速览
训练数据:PaLM 是谷歌在去年发布的大模型,有 7800 亿个 token 的训练数据,而近期发布的升级版 PaLM-2 据透露[1]有 3.6 万亿个 token 的训练文本数据,其训练数据规模几乎是前一代的 5 倍,推理能力大幅增强。 参数规模:模型的规模相比第一代更小,PaLM-2 的参数量约有 3400 亿,而最初的 PaLM 在 5400 亿个参数上进行了训练,这意味着该模型在完成更复杂的任务的同时变得更加高效。 多种语言:PaLM-2 采用了 100 种语言的训练数据,能够更好地适应多语言应用场景,提升语言理解与生成能力。
研究进展
计算优化的扩展:最近的计算优化扩展研究表明,数据大小至少与模型大小一样重要。作者在更大规模的计算上验证了这项研究,并发现在给定训练计算量的情况下,数据大小和模型大小应该按照约 1:1 的比例扩展,以实现最佳性能(而不是过去的趋势,即模型比数据集扩展速度快3倍)。这种新技术使 PaLM-2 比 PaLM 更小,但效率更高,整体性能更好,包括更快的推理、更少的服务参数和更低的服务成本。 改进的混合数据集:先前的大型预训练语言模型通常使用由英语文本主导的数据集。作者设计了一个更多语言和多样化的预训练混合,涵盖数百种语言和领域(如编程语言、数学和平行多语言文档)。展示了更大的模型可以处理更多不同的非英语数据集,而不会导致英语语言理解性能下降,并应用了去重技术以减少记忆。 架构和目标改进:模型架构基于 Transformer。过去的大模型几乎都使用单一的因果或掩码语言建模目标,而考虑到 UL2 的强大结果,作者在该模型中使用了经过调整的不同预训练目标的混合,以训练模型理解语言的不同方面。
部分实验及结果
推理:PaLM-2 在推理基准测试任务(如 WinoGrande 和 BigBench-Hard)上取得了最先进的结果,实验效果赶超 GPT-4。 多语言:在 XSum、WikiLingua 和 XLSum 等基准测试中取得了更好的结果,还改进了 PaLM 和谷歌翻译在葡萄牙语和中文等语言上的翻译能力。 记忆:与 PaLM 相比,PaLM-2 在逐字记忆方面显著减少,可以减少攻击者在访问时可以恢复的信息,来防止信息提取攻击。 此外,在代码、翻译、生成与问答等多项任务上,PaLM-2 都取得了一定的进步。
在几乎所有任务上相比 PaLM 取得了大幅改进。 在使用 Winograd schema 的 WSC 和 WinoGrande 上表现相似。 在对抗性自然语言推理 (ANLI) 数据集、ReCoRD 常识推理数据集以及阅读理解的 RACE 数据集上取得了显著的改进。
预训练数据:删除了敏感的个人身份信息形式,过滤重复的文档以减少记忆效应,并分享了有关预训练数据中人们如何被表示的分析结果。 新功能:PaLM-2 展示了改进的多语言有害内容分类能力,并内置了对有害生成的控制。 评估:评估了 PaLM-2 一系列下游用途的潜在危害和偏见,包括对话、分类、翻译和问答。这包括开发新的评估方法,用于衡量生成式问题回答环境和与有害语言和与身份相关的社会偏见相关的对话环境中的潜在伤害。
PaLM-2 或将赋能广告与文案创作
小结
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章