OpenAI新作，直指DeepMind格局小了！大模型复杂推理应逐步验证

2023-06-03 16:06

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 夕小瑶科技说

作者 | Python、Zenmoore

谷歌旗下的DeepMind，因AlphaGo而名声大振；而推出ChatGPT的OpenAI，近日更是如日中天。

然而，OpenAI公开了一篇论文[1]，结论同DeepMind去年11月的工作[2]完全相反。在对比差异时，论文指出DeepMind格局小了，相比之下，OpenAI用了更强力的基础模型（use a more capable model），调研了更有挑战的数据（dataset is significantly more challenging），并基于更大的监督数据规模（much larger quantity of process supervision data）。

那究竟是什么样的结论，使两家公司得到如此分歧呢？让我们来仔细看看这篇文章吧。

论文题目:
Let’s Verify Step by Step.

论文链接:
https://arxiv.org/pdf/2305.20050.pdf

背景

对于ChatGPT等大语言模型，有一个魔法词叫做“let's think step by step”。如下图右所示，在解题等需要复杂推理的场景下，通过这个魔法词，让模型输出答案之前，输出推理过程，有助于提高答案的准确性与可解释性。该方法被称为思维链（CoT，Chain of Thought）。

所以，一个自然的问题是：在训练大模型时，有没有可以利用思维链的地方呢？

我们知道，训练ChatGPT这种大模型包括两步：语言模型训练与指令精调。在指令精调中，会根须人类反馈数据（考虑认知、价值观等）训练一个奖励模型（Reward Model），并通过强化学习方式，来反馈调整语言模型。

利用思维链的方式也聚焦在这一强化学习过程。具体而言，可以分为两种：只针对结果的ORMs（outcome-supervised reward models），与基于每一步推理过程的PRMs（process-supervised reward models）。前者只根据模型解题的最终结果给予强化学习监督，而后者关注每一个推理步骤。

分歧点与差异分析

OpenAI和DeepMind的分歧点在于，在解决需要复杂推理的数学题的背景下，对于奖励模型（Reward Model），OpenAI认为针对过程的PRMs更好，而DeepMind认为两者相差不大。

OpenAI指出，之所以产生这一分歧，是DeepMind的实验格局不够：

OpenAI基于GPT-4展开实验，而DeepMind只用了700亿参数的基础模型。
OpenAI针对MATH数据集，该数据集取自美国中学数学竞赛试题（AIME），而DeepMind只研究了GSM8K数据集，都是些小学数学题。
OpenAI基于了更大的数据规模：800K过程标注标签。而DeepMind只对530道训练集数据取了1560个模型生成样本，得到9.8K的过程标注标签。

这次OpenAI非常慷慨地开源了他们的数据：

https://github.com/openai/prm800k

下图为针对过程的PRMs数据样本，绿色的行代表正确的步骤，红色的代表错误的。

实验结果与实验结论

即使公开了论文和数据集，这篇文章和OpenAI之前的几篇文章一样，对技术细节隐藏很深，只公开了很少的实验结论。

主要结论：针对过程的PRMs更好。

对上图解释一下，这里用到Best-of-N作为评价指标，即让语言模型生成N个解之后，让奖励模型选取其中分数最高的一个作为答案，用以评价奖励模型。Majority Voting是一个多数投票的方法。

次要结论1：可以通过主动学习，加速学习过程。下图横轴代表每道题的标注数据规模，等价于训练数据规模。主动学习的方式为，使用较小的PRM模型，对每道题保留部分分值最高的负样本。该方法可以提高2.6倍的收敛速度。

次要结论2：针对过程的PRMs可以较好地泛化到领域外的数据上。可以看到，在各学科的AP数据上，PRMs都取得了较好的表现。

除此之外，文章最后还探讨了包括测试集污染在内的一些问题，在此就不过多展开了。

额外的结论

因为OpenAI写得论文都比较隐晦，有时需要一些专业的背景才能够从字里行间看出一些端倪。爱丁堡大学的博士生fuyao在Twitter上也给出了这篇文章的一些参考结论：

奖励建模非常重要。单纯有监督微调只能提供模型的格式，而无法提升能力(capability)。
使用逐步奖励而不仅仅依赖于最终奖励对模型进行训练，这个原则也适用于编程任务。
如果数据集像GSM8k那样简单，或者奖励数据不足够大，可能会得出错误结论，认为两种类型的奖励是相似的。这是之前DeepMind的结论。
在进行奖励建模之前，应该对Latex和SFT（结构化文本）进行持续训练。持续训练可以提升能力，而SFT可以提供格式。这个做法来自Google Brain的Minerva论文。
推理任务的奖励模型与对话任务的奖励模型不同。不应该假设底层只有一个单一的奖励模型。原始的Claude论文也讨论了这种做法。
应扩大奖励模型规模。不应该假设大模型可有效从小型奖励模型中学习。这在OpenAI最初的InstructGPT论文中也有讨论。
在单一数据集（MATH）上训练的奖励模型可推广到领域外数据集。可能归因于模型规模。

总结

这篇文章告诉我们，要辩证地看待世界，真理也是有一定适用范围的。得到错误的结论，可能不是方法思路有问题，而是没有打开格局。

这篇文章对科研的价值，一个是可以像fuyao那样，除了主要结论之外，通过一些隐约的表示，探究OpenAI隐藏的细节。另一方面，也可以从开源的数据集入手，仔细分析GPT4在数学推理的表现与人类标注的特点，探究GPT4的能力的同时，思考是否有必要，以及能不能将之推广到其它需要推理的大模型应用场景中。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章