谷歌发布技术报告：PaLM-2 推理超越 GPT-4，训练文本是第一代近 5 倍

2023-05-25 16:05

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 夕小瑶科技说

作者 | 智商掉了一地、Python

随着聊天机器人的热潮迅速席卷科技行业并吸引到投资人士的目光，谷歌、微软、Meta 和亚马逊等公司正竞相将他们最复杂的模型嵌入尽可能多的产品中。谷歌近日发布了一份技术报告，揭示了他们研究的大模型最新成果——PaLM-2。作为 Bard 聊天机器人的基础模型，与以往的技术相比，PaLM-2 在处理长文本和多语言任务方面表现出色，使用的训练数据几乎是前一代的 5 倍，使其能够执行更高级的编程、数学和创意写作任务。我们将主要介绍 PaLM-2 的亮点，并探讨它在广告和 YouTube 创作者支持方面的最新应用。

技术报告题目:
PaLM 2 Technical Report

技术报告链接:
https://arxiv.org/abs/2305.10403

PaLM-2 亮点速览

训练数据：PaLM 是谷歌在去年发布的大模型，有 7800 亿个 token 的训练数据，而近期发布的升级版 PaLM-2 据透露[1]有 3.6 万亿个 token 的训练文本数据，其训练数据规模几乎是前一代的 5 倍，推理能力大幅增强。
参数规模：模型的规模相比第一代更小，PaLM-2 的参数量约有 3400 亿，而最初的 PaLM 在 5400 亿个参数上进行了训练，这意味着该模型在完成更复杂的任务的同时变得更加高效。
多种语言：PaLM-2 采用了 100 种语言的训练数据，能够更好地适应多语言应用场景，提升语言理解与生成能力。

研究进展

PaLM-2 在高级推理任务中表现出色，包括代码和数学、分类和问答、翻译和多语言能力，以及自然语言生成，比以前最先进的 LLM 模型 PaLM 更出色。它通过统一大型语言模型中三个不同的研究进展，对其上一代 PaLM 进行了改进：

计算优化的扩展：最近的计算优化扩展研究表明，数据大小至少与模型大小一样重要。作者在更大规模的计算上验证了这项研究，并发现在给定训练计算量的情况下，数据大小和模型大小应该按照约 1:1 的比例扩展，以实现最佳性能（而不是过去的趋势，即模型比数据集扩展速度快3倍）。这种新技术使 PaLM-2 比 PaLM 更小，但效率更高，整体性能更好，包括更快的推理、更少的服务参数和更低的服务成本。
改进的混合数据集：先前的大型预训练语言模型通常使用由英语文本主导的数据集。作者设计了一个更多语言和多样化的预训练混合，涵盖数百种语言和领域（如编程语言、数学和平行多语言文档）。展示了更大的模型可以处理更多不同的非英语数据集，而不会导致英语语言理解性能下降，并应用了去重技术以减少记忆。
架构和目标改进：模型架构基于 Transformer。过去的大模型几乎都使用单一的因果或掩码语言建模目标，而考虑到 UL2 的强大结果，作者在该模型中使用了经过调整的不同预训练目标的混合，以训练模型理解语言的不同方面。

总的来说，PaLM-2 通过计算优化的扩展、改进的混合数据集以及架构和目标的改进等研究进展，提供了一个更强大、更多语言、更全面理解语言的模型。

部分实验及结果

通过报告中的多项实验能够了解到：

推理：PaLM-2 在推理基准测试任务（如 WinoGrande 和 BigBench-Hard）上取得了最先进的结果，实验效果赶超 GPT-4。
多语言：在 XSum、WikiLingua 和 XLSum 等基准测试中取得了更好的结果，还改进了 PaLM 和谷歌翻译在葡萄牙语和中文等语言上的翻译能力。
记忆：与 PaLM 相比，PaLM-2 在逐字记忆方面显著减少，可以减少攻击者在访问时可以恢复的信息，来防止信息提取攻击。
此外，在代码、翻译、生成与问答等多项任务上，PaLM-2 都取得了一定的进步。

具体地，为了评估和比较模型的计算效率和性能，作者根据图 1 中的规律，计算了 1 × 10^22、1 × 10^21 和 1 × 10^20 FLOP 的最佳模型参数（D）和训练 token 数（N）。然后，使用不同的模型（从 400M 到 15B）在相同的预训练数据集上进行训练。

作者计算了每个模型在这三个计算量点上的损失值，将得到的训练损失和相应的最佳模型参数列在表 1 中。

此外，作者还将 PaLM-2 的各个变体与 PaLM 540B 进行了一次性对比实验。观察到，即使是最小的 PaLM-2 变体在性能上也能与规模更大的 PaLM 540B 模型竞争，而 PaLM 2-M 已经始终优于 PaLM。PaLM 2-L 实现了以下成果：

在几乎所有任务上相比 PaLM 取得了大幅改进。
在使用 Winograd schema 的 WSC 和 WinoGrande 上表现相似。
在对抗性自然语言推理 (ANLI) 数据集、ReCoRD 常识推理数据集以及阅读理解的 RACE 数据集上取得了显著的改进。

最后，PaLM-2 延续了谷歌负责任的 AI 开发和对安全的承诺。

预训练数据：删除了敏感的个人身份信息形式，过滤重复的文档以减少记忆效应，并分享了有关预训练数据中人们如何被表示的分析结果。
新功能：PaLM-2 展示了改进的多语言有害内容分类能力，并内置了对有害生成的控制。
评估：评估了 PaLM-2 一系列下游用途的潜在危害和偏见，包括对话、分类、翻译和问答。这包括开发新的评估方法，用于衡量生成式问题回答环境和与有害语言和与身份相关的社会偏见相关的对话环境中的潜在伤害。

PaLM-2 或将赋能广告与文案创作

据 CNBC 透露，谷歌计划利用新的人工智能模型来进行广告投放，并为 YouTube 创作者提供帮助。谷歌正迅速将人工智能技术引入其核心产品，并逐步应用于广告领域。据透露，已批准使用基于 LLM 的生成式人工智能来自动化广告和支持广告的消费者服务。文件显示，谷歌的某些团队计划利用 PaLM-2 驱动的工具，让广告主生成自己的媒体资产，并为 YouTube 创作者提供视频建议。

此外，谷歌正在测试将 PaLM-2 应用于 YouTube 青少年内容的标题和描述等方面。对于创作者，谷歌使用这一技术来试验根据相关主题提供 5 个视频创意的想法。

与此同时，在经历了近 20 年持续快速扩张后，谷歌连续多个季度的收入增长疲软。同时，广告商为了控制支出，一直在削减在线营销预算，这给谷歌与 Meta 等公司带来了困扰。据透露，谷歌希望利用生成式 AI 产品增加支出，计划在其 100 多个产品中运用基于生成式 AI 的客户支持策略，包括 Google Play 商店、Gmail、Android 搜索和地图等，以提高收入和改善利润率。这些聊天机器人能够通过简明扼要的语句提供具体答案，并允许顾客提出后续问题，然后提供最适合他们的广告计划建议。这一举措旨在应对近期经济变化和广告商削减在线营销预算的挑战。

小结

谷歌的近期工作与 Meta 最近推出的基于生成式人工智能的广告工具相呼应。而在即将举行的谷歌营销大会上，谷歌将发布新的 AI 技术供广告商使用，强调在广告领域的潜力。

不过，谷歌在技术报告中强调：当讨论 PaLM-2 系列时，需要明确预训练模型（不同规模）、这些模型的微调变体以及使用这些模型的用户界面产品之间的区别。尤其是用户界面产品通常会包含额外的预处理和后处理步骤。此外，底层模型可能会随着时间的推移而发展。因此，不能期望用户界面产品的性能与本报告中所报道的结果完全相同。

最后，如果谷歌的新模型真的能够赋能广告与创作领域，这将是科技在创作领域迈出的又一重要步伐。这一努力将进一步推动人工智能技术的发展，并为广告投放和创作者提供更强大、更个性化的支持，为创作领域带来新的机遇和挑战。我们将持续关注这些技术的发展，并期待看到它们对内容创作行业与市场的新影响~

参考资料

[1] CNBC: https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章