听伯克利博士给你讲解Llama 2的技术细节

公众号新闻

2023-07-21 04:07

文章来源于品玩GenAI，作者大模型机动组

文章翻译自《Llama 2: an incredible open LLM》

原文作者｜NATHAN LAMBERT

Meta 近日发表了 Llama 2 的论文，而来自伯克利大学的人工智能专业博士Nathan Lambert 则在自己的博客中对这篇论文发表了自己的看法。

Nathan Lambert 表示，从结论来看，Llama 2 是 Llama 的延续。它在数据质量、训练技术（包括新颖的研究构件）、能力评估、安全培训和负责任的发布方面进行了大量的技术更新。

以下是 Lambert 的博客原文翻译：

Meta在论文中描述了其在AI领域的大量细节。在当前这个时代来说，这是语言模型生态系统的一大进步。

Meta 的基本模型看起来非常强大（超越 GPT3），而经过微调的聊天模型看起来也与 ChatGPT 处于同一水平。这对开源模型来说是一个巨大的飞跃，对闭源提供商来说则是一个巨大的打击，因为使用这种模型将为大多数公司定制更个性化的模型，同时也迎来更低的成本。我将重点关注这个模型并在这篇文章中对其内容进行分析。而在 Meta 的论文中，他们表达了以下几个要点：

Llama 2 模型是什么：Llama 2 相较于上一代其训练数据提升了40%，包含了70亿、130亿和700亿参数 3个版本。Llama 2 接受了 2 万亿个 tokens 的训练，其上下文长度是 Llama 的两倍，其微调模型也接受了超过 100 万个人类注释的训练。

它是开源的吗：其实从技术上来讲，它不是完全开源的，因为其开发和使用并没有完全面向全体公众开放。但在开源社区中它仍然非常有用。

Llama 2的能力: 通过广泛的基准测试，我第一次确信有一款开源模型的能力达到了 ChatGPT 的水平（编码除外）。

Llama 2的成本: 推出Llama 2 这样的模型需要大量的预算和资金调配。（如果按照市场价格计算，偏好数据这一项的预算将达到2500 万美元），此外还需要非常庞大的研发团队。制作一款通用模型的基础投入就是这么庞大。

其他构件：没有迹象表明 Llama 2从其他奖励模型或数据集进行 RLHF。

关于 Meta AI：Meta AI 这个组织显然与Yann Lecun 以及最初的 FAIR 有很大的区别。

代码/数学/推理：论文中没有过多讨论代码数据和RLHF过程。

多轮一致性：Meta 提出一种提高多轮一致性的新方法GAtt，它的灵感来源于上下文蒸馏法。在我们更好的理解如何根据需要来训练模型之前，这些通常是提高模型性能的好手段。

奖励模型: 使用两种奖励模型来避免 Anthropic 工作中发现的安全性与有用性的权衡。

数据控制：大量关于分配控制的评论（正如我所说是 RLHF 的关键）。这很难重现。

RLHF流程：采用一套两阶段RLHF方法。这种方法从拒绝采样开始，然后进行拒绝采样+近端策略优化（PPO），用这种方法表明 RLHF 的重要性，并证明LLM的卓越写作能力在根本上是由RLHF所驱动的

生成模型：根据具体情况来调整温度参数。

安全/危害评估：论文用了几乎一半的内容来进行安全评估总结。出于安全目的，论文给出了详细的背景调查以及RLHF过程。当然文章显示的结果并不完美，但我认为这是想正确方向迈出的第一步。

许可声明：Meta 表示，Llama 2模型可用于商业用途，但如果用户的产品每月活跃用户数 >= 7 亿，则需要填写申请表格才能访问，用户还可以从 HuggingFace 中心下载模型。

从Meta 发表的论文来看，Llama 2 就像是在原有的基础上进行了一次扩充。显然Meta发现了一些有效的方法并扩大了团队规模来完善这个模型。目前来看，Llama 2 模型更像是一个进行中的项目，它的下一代模型应该正在训练中。

论文显示，Meta 在很大程度上倾向于通过开源实现人工智能的民主化。考虑到人工智能开发和使用中的权力不平等，民主化是最让我感到惊讶的。考虑到论文其他部分的详细程度，这很可能意味着 Meta 正在争分夺秒，争取在 Reddit 和 Twitter 等网站被完全封锁之前，获得所有可用的互联网数据。

基础模型

除了增加上下文长度和分组查询关注度（GQA）外，Llama 2模型在架构和所有方面都与最初的Llama 非常相似，大部分变化都发生在数据和训练过程中。上下文长度提高了聊天用例的可用性，而GQA则提高了模型的推理速度。

Meta 的训练语料库包括来自公开来源的新数据组合，其中不包括来自 Meta 产品或服务的数据。Meta努力剔除某些已知的包含大量个人隐私信息的网站数据。并让其在 2 万亿个Token 的数据上进行了训练，因为这样可以更好地权衡性能和成本，对最真实的数据源进行上采样，以增加知识和减少幻觉。

我希望他们能详细说明哪些数据集包含大量个人信息！这将是关键所在，同时也与 "公共在线数据 "的一般概念相融合。

论文的大部分内容都是关于评估和微调的。这可能会加强 Meta 作为开源大型语言模型（LLM）领导者的地位。

论文按照 RLHF 的一般流程深入探讨了许多内容。他们致力于在偏好数据上训练奖励模型，然后采用 RL 对其进行优化，以提高生成质量。

偏好数据

这篇论文对我的一大收获是，Meta 公开了我从 Anthropic 和 OpenAI 那里听到的传言：奖励模型是 RLHF 的关键，也是模型的关键。为了得到一个好的奖励模型，Meta 不得不花大力气来收集偏好数据，而这些数据与开源社区的数据相比有了极大的升级。

总之，Meta 沿用了曾经被证实过的数据，但采用的数据量有了更大的规模并进行了一定的筛选：

Meta 采用的是二分类模型评价指标，而不是其他更复杂的反馈类型。这有点像1-8级的李克特量表，但定性为 "明显更好、更好、稍好、可忽略不计的好或者是不确定"。

Meta 使用多轮偏好，即从不同模型检查点获取模型响应，以产生模型之间的多样性。以这种方式改变所使用的完成度会使偏好数据更加多样化，并为他们稍后部署的一些迭代 RLHF 提供支持。

将数据收集的重点放在有用性和安全性上，并在收集数据时对每个数据源使用不同的指导原则。这与 Anthropic 的工作形成了鲜明对比。

该团队在收集的信息中添加了额外的安全元数据，展示了模型在每一轮中的安全响应。当这些信息被传递到建模阶段时，他们 "不包括任何所选响应不安全而其他响应安全的例子，因为我们相信更安全的响应也会更受人类青睐"。

Meta 没有详细说明记录的其他元数据，但这很可能是为了识别潜在的错误和数据问题。其他需要标记的内容可能是令人迷惑的提示或是需要工具解决的问题等。

为分发管理部署迭代收集："每周分批收集人工注释。随着我们收集到更多偏好数据，我们的奖励模型也得到了改进，我们能够为《Llama 2-Chat》逐步训练出更好的版本"。

规模之大令人咋舌（如果假定供应商提供的数据大致是市场价格，那么仅数据一项就可能花费 2000 多万美元），回合数远远超过通常可用的回合数。请注意，他们没有比较或使用开放式助手数据，而这些数据也可用作偏好数据。下图总结了这一步的数据。

论文的这部分内容像是在为更大的事情做铺垫。毕竟，Meta 拥有雄厚的资金。

奖励模型

关于奖励模型的部分主要可以用两个重要细节来概括：

训练两种奖励模型，以区分有益和安全目标。以及需要多少偏好数据的迭代部署和扩展规律。

首先，论文指出，他们 "训练了两个独立的奖励模型，一个针对帮助性进行了优化，另一个针对安全进行了优化"。这两个模型都建立在基础语言模型上，用线性回归层取代了普通语言模型。论文表明它们总是使用最新的聊天模型，以尽量减少 RLHF 训练中的分布不匹配。

在此过程中还有一些值得注意的技术细节：

在进行RLHF 之前的起点奖励模型是在开源数据上训练出来的，"我们没有观察到开源偏好数据集的负迁移"，因此他们将其保留给了后来的模型。这些最初的模型被用于供应商早期数据的采样。

保留了Anthropic 的一些无害性数据（90% 是他们自己的数据），但论文没有解释为什么需要这些数据。

此外，按照论文中的标准，模型只训练了一个 epoch 。这是为了避免过度拟合，而奖励模型很容易出现这种情况。
奖励模型的平均准确率仍然只有 65-70%），但也对与集合中 "明显不同 "的标签进行了测试，结果更好（当贴标者的偏好共识很强时，准确率可达 80-90%）！

还有一些有趣的点：

在奖励模型损失函数中增加一个边际项（与偏好的置信度成正比），提高了有用性。这是 OpenAI 和 Anthropic 所使用的损失函数的延续，看起来是一个非常合理的决定，只要来自标记者的分数不是太嘈杂（Meta 也使用了每对 3 票的共识）。

随着模型在他们的设置中逐渐收敛，模型比较之间的偏好三角会随着数据供应商的批次而减少。

作者将他们的奖励模型与 GPT4 作为奖励模型进行了比较，仅从在开源数据上训练的奖励模型表现来看并没有击败 GPT4。

图中展示了奖励模型的准确性是如何随时间推移而进步的。这些数据供应商通常会分批将数据发送过来，以此来验证流程是否能长期有效，并让模型部署者有时间调整代数和提示的分布。请注意，下面的 OpenAssistant 奖励模型（基于 DeBERTa V3 Large）并不是开源社区认为 "好 "或值得注意的模型。不知道他们为什么要把它包括进来。另一方面，GPT 4 作为一种奖励模型，是一个值得考虑的足够强大的基线。

在准备微调部分时，Meta 在讨论结果的段落中隐藏了一个爆炸性的真相：

我们注意到，奖励模型的准确性是 Llama 2-Chat 最终性能的最重要代表之一。

众所周知，RLHF 会利用奖励模型中的所有知识，无论好坏。但令人恼火的是，没有人开源一个强大的奖励模型来调查潜在的问题和利用。

RLHF 和微调

这是我最喜欢的论文部分。Meta 公司展示了他们如何利用 RLHF 有意义地改进他们的模型。下图是我最喜欢的一张图，为了让大家看清楚，我把它切到了前面。从根本上说，他们采用了最佳奖励模型，并在此基础上对各种模型进行了评估。他们以此来说明 RLHF 流程是如何将生成的文本进行调优的。如果你的奖励模型工作正常，那么这些步骤就会有意义地改善你的最终输出。

Meta 使用不断变化的数据分布迭代训练 5 个 RLHF 版本。

从一开始，Meta 就指出了数据质量对这些模型的重要性：

质量是你所需要的一切。

第三方 SFT 数据可从许多不同来源获得，但我们发现，其中许多数据的多样性和质量都不够高，尤其是在将大语言模型与对话式指令对齐方面...... 通过撇开来自第三方数据集的数百万个示例，使用来自我们自己的基于供应商的注释工作的较少但质量较高的示例，我们的结果有了明显改善。我们发现，数以万计的 SFT 注释足以获得高质量的结果。

Meta 一开始就说明了开源的指令数据集质量很糟糕。在内容并不丰富的开源社区中，数据质量的最新趋势是过滤数据集和 "未审查 "数据的概念，这很可能是在他们完成监督微调（SFT）之后才出现的。注释数据的数量（27,540）实际上仍然非常接近 Anthropic 报告的数据和 OpenAI 的传言（约 10k 数量级）。这是可重复性方面的胜利。

但这一切都带有一个星号，即高质量数据之间的差异仍然很大：

我们还观察到，不同的注释平台和供应商可能会导致明显不同的下游模型性能，这突出了数据检查的重要性，即使在使用供应商提供注释的情况下也是如此。为了验证我们的数据质量，我们仔细检查了一组 180 个示例，比较了人类提供的注释和模型通过人工检查生成的样本。出乎意料的是，我们发现由 SFT 模型生成的样本输出往往能与人类注释者手写的 SFT 数据相媲美，这表明我们可以调整优先级，将更多的注释精力投入到基于偏好的 RLHF 注释中。

这里缺少的部分可能是他们使用了什么过滤方法来识别更高质量的数据。每个人都知道一些开放数据集存在偏差和奇怪之处，但却不知道如何解决这些问题（我怀疑答案是大量的人工劳动）。在这些知识成为常识之前，开源教学模型培训很可能仍将落后。

一旦数据质量这一块得到确立，Meta 就会把重点放在难以捉摸的 RL 部分上：

[事实证明，强化学习非常有效，特别是考虑到其成本和时间效益。我们的研究结果强调，RLHF 成功的关键因素在于它在整个注释过程中促进了人类与 LLM 之间的协同作用。即使是熟练的注释者，每个人的写作也会有很大的差异。根据 SFT 注释进行微调的模型可以学习这种多样性，不幸的是，其中也包括执行不力的注释的尾部。此外，该模型的性能受制于最熟练注释者的写作能力。

这篇论文很有意思，因为它是第一篇指出 RLHF 从根本上提高了模型性能上限的论文，而其他研究小组虽然也认为 RLHF 很重要，但只是把它当作一种风格或安全工具。Meta 确实明确指出，这一过程 "需要大量的计算和注释资源"，而这也是人们长期以来一直怀疑的事情。

现在，我们将开始讨论他们在 RL 部分所做的一些技术细节。正如我一直所说的，除了分布控制报告（这一点非常令人兴奋）之外，RL 在高层次上似乎与文献相当一致。

在整个 RLHF 阶段，迭代奖励建模数据的积累与模型的改进同时进行，对于确保奖励模型保持在分布范围内至关重要。

正因为如此，我逐渐得出结论，要想切实有效地开展 RLHF，至少需要一个规模适中的团队。一个 1-3 人的团队可以发布一个很好的指导模型，但我认为这种规模的 RLHF 至少需要 6-10 人。随着时间的推移，人数会逐渐减少，但这类工作需要与外部公司签订合同并保持密切联系，同时由于文化和沟通上的不匹配，时间上总是有点不同步。

作者使用的 RLHF 基线是 PPO 和拒绝采样微调。PPO 是在线 RL（可以说是试错学习）中最流行的算法，这可能是因为它是最流行的算法。拒绝采样的原理是，从语言模型策略中采样一批 K 个完成句，然后在奖励模型中对其进行评估，返回最好的完成句。如果你通过奖励模型对最好的几个输出进行再训练，你的策略就能得到改进。

这再次证实了这一领域中许多有趣的直觉，但并不一定能回答为什么会这样的所有问题。大多数人都知道这两种方法都很强（请记住，OpenAI 在 InstructGPT 中使用了 PPO，在 WebGPT 中使用了一个版本的拒绝采样），但 PPO 似乎始终是最终最好的方法。为什么会这样，我们都还在学习中。

作者对这些方法的比较和使用时机做了一些基本说明：

拒绝采样（RS）的搜索范围更广（每次提示的代数更多），而 PPO 对每个奖励模型的更新更多。

不同方法之间的最终差异并不明显（与 WebGPT 的研究结果类似）。
在 RLHFV4 中，他们只使用了拒绝采样，然后在最后一步使用 PPO 和拒绝采样进行微调（在某些评估中，PPO 略胜一筹）。

评估

论文从多个方面对其模型进行了评估。这里有几件事值得关注。首先，如果你看一下自动基准，比如开源大语言模型排行榜（MMLU、ARC 等），Llama 2 在所有规模上都比任何其他开源模型要好得多。在这篇论文中，我发现很多有趣的内容都来自于 Meta 的人工评估（例如专业数据标注者）以及 LLM 评判类型的工作（我曾参与其中）。

虽然我不打算继续讨论这个问题，但重要的是，基础模型在像 MMLU 这样的基准测试中得分更高。基础模型能力是其他一切的基础。它是上述 RLHF 流程所处理的内容，也是我们在使用高效微调方法制作 Llama 2 时所要使用的内容。这在 Meta 的论文中并没有占据很大篇幅，他们没有详细说明的大量数据工作很可能是这些 "基本 "评估的最重要的基础。

其次，基本模型评估在某种程度上是在进行一场不公平的游戏。他们报告的结果也是与来源密切的模型相比的（据我所知，它远远落后于 GPT4 和 Claude 2），这些模型可以在没有开源验证的情况下被提示和操纵以获得高分。我很高兴这还没有完全变成一场分数操纵的竞赛。

Meta在论文中评估的其余部分深入研究了当下时兴的评估技术。人工注释器和 LLM-as-a-judge（LLM-as-a-judge）因为它们既通用又可用。要提出一种新的评估技术非常困难，而要用一种新的模型很好地推出这种技术也是不可能的。评价的关键在于一个人相对于同行的分数和透明度。

Meta 在论文的开头给出了解释：

在回顾这些结果时，我们必须注意到，由于提示集的局限性、评审指南的主观性、单个评分者的主观性以及比较世代的固有困难，人类评价可能会产生一定的问题。

他们谈论的结果展示了 Meta 如何进入开源主导地位。

他们也采用了类似的技术，但使用模型作为评判标准（包括他们的奖励模型和 GPT4）。像这样展示 RLHF 如何成为一个时变概念确实很有必要。接下来，需要有人分享每一步的数据和训练情况，这样我们才能知道应该寻找哪些迹象。

就性能而言，这些模型在 RLHFv3 之后超越了 ChatGPT（在本图中，您可以看到 PPO 方法如何在右上方提供了一个小提示）：

为了得到像这样展示一般能力的图，论文中还有很多其他的评估测试。例如，他们花了很多时间介绍奖励模型。

奖励模型测试的一些要点如下：

校准奖励模型得分与人类标注者对某对动物的偏好（误差仍然很大）--这是一条直线，人类偏好越高，得分就越高。我怀疑这种类型的行为极难获得。

他们将自己的奖励模型与在开源数据集上训练的奖励模型进行了比较。这有助于说明开源领域的可能性。

而人类/模型评估的一些要点如下：

同时在 ChatGPT 和 Llama 2-Chat 输出上评估模型，以避免模型因自身风格偏差而增强自身结果。这是我在论文中最满意的地方之一。

对评分者间可靠性指标的使用很有意思（应该有更多人使用这些指标），比如 Gwet 的 AC1/2，它们都是经过适当设计的统计工具。当模型胜率比较平均时，内部收益率就会下降，因此显示平局的结果应考虑更大的误差条。

承认人工评估的局限性：大量的评估提示集没有涵盖所有实际用途，缺乏编码/推理评估，而且只评估了最终的对话回合。

评估结果令我兴奋不已，它让我不禁要问："什么能击败我们的最小模型？有什么最小的模型能在这样的功能上打败 ChatGPT？这是开源的下一个挑战。

安全性

与现有的开源模型相比，本模型和报告的安全方面是迄今为止最大的改进（我很惊讶 Falcon 40b-instruct 在这方面做得这么好，因为我听说那里的训练过程相对宽松，不过这是无关紧要）。本节详细介绍了安全与各种培训和评估步骤的关系。我将在今后深入探讨这个问题，因为随着这种模型的使用越来越多，尤其是考虑到现在公众对人工智能的普遍批评，这些内容将会越来越精彩。

我在下面附上了安全性的核心图，其中包括偏差、红队、预训练步骤等更多内容。这张图和另一张图 17(b) 显示了在 2000 个对抗性提示中，模型如何在违规率和红队得分方面被评为更安全。