Redian新闻
>
OpenAI炼出最强数学解题模型,击碎AI瞎说的臭毛病

OpenAI炼出最强数学解题模型,击碎AI瞎说的臭毛病

科技

训练1万多道数学题后,OpenAI让ChatGPT的做数学题水平直线上升。
作者 |  程茜
编辑 |  心缘
智东西6月1日报道,今天凌晨,OpenAI官方博客发布新的研究进展,在数学推理能力上,研究人员正在通过过程监督的奖励模型揪出大型语言模型的逻辑错误。
大型语言模型在执行复杂多步推理能力上有了很大提高,但有时候仍会产生逻辑错误,这种错误通常被称为“幻觉”。这也是阻碍通用人工智能时代到来的关键一步。
而这种幻觉现在有望被结果监督、过程监督的奖励模型打破。具体方法是,研究人员使用模型思维链的最终结果对结果监督的奖励模型(ORM)进行训练,而过程监督的奖励模型(PRM)会接收思维链中每一步的反馈训练。
过程监督相比于结果监督的优势在于,它会直接奖励遵循一致的思维链模型,并且因为过程中的每个步骤都受到了精确的监督,能指出发生错误的确切位置,其结果也更容易被人类解读,因此可以更直接地奖励大型语言模型遵循人类认可的思维链。
OpenAI的研究人员对结果监督和过程监督进行了更详细的比较,他们使用了更强大的基础模型GPT-4、更多的人类反馈,并在MATH数据集上进行了训练和测试。基于上述条件,研究人员证明了,过程监督的奖励模型能解决MATH测试集代表性子集中78.2%的问题。

01.
训练1.2万道数学题
大模型监督小模型训练


在测试过程中,结果监督可以在没有人为干预的情况下提供,因为MATH数据集中的所有问题都有可自动检查的答案。但过程监督需要依靠人工数据标注器来标注模型生成的解决方案中每个步骤的重要性。
研究人员就在大规模和小规模两种情况下进行实验,在大规模训练下,研究人员基于GPT-4进行微调,但这一情况下,过程监督和奖励监督的训练集数据没有完全重合,无法直接比较。因此,研究人员对模型进行了小规模训练以进行直接比较。为了降低人工反馈的成本,他们使用大型语言模型来监督小型语言模型训练。
在每个模型上,研究人员使用一个固定的模型来生成所有的解决方案,这个固定模型就是生成器。为了收集过程监督数据,研究人员向人类数据标注器提供了大规模生成器采样的数学问题的解决方案步骤。
人类数据标注器就会为每个步骤分配一个Positive、Negative、Neutral的标签,Positive代表该步骤正确、合理,Negative代表不正确、不合理,Neutral表示有歧义。
Positive:这个问题中,GPT-4在第7、8步时执行猜测,这也是大型语言模型容易产生幻觉的常见地方,即声称某个猜测是正确的,但这里没有发生错误:

Negative:下面这个问题中,第七个步骤,GPT-4进行了错误的简化表达,奖励模型指出了错误:

Neutral:第13步中,GPT-4试图通过组合相似的项来简化等式,它将“12x”正确移动到了左边,并进行了组合,右边的项没有改变,奖励模型没有辨认出这个错误:

研究人员将这一带有标签的步骤数据集称为PRM800K,包含针对12000个问题,75000个解决方案以及80万步骤的标签。其中包含4500道MATH数据集中的问题。

02.
过程监督整体效果优于结果监督
解决方案更多效果更好


结果监督的奖励模型中,研究人员从生成器中为每个问题均匀采样固定数量的答案,并训练奖励模型预测每个答案是正确或不正确。实际操作过程中,研究人员会通过自动检查最终答案来确定正确性,并使用奖励模型在最终token处的预测作为解决方案的总体得分。
但这种自动评分机制并不完全可靠,该机制无法对通过错误推理得出正确答案的解决方案作出合理判断。
过程监督的奖励模型会预测每个步骤中最后一个token的正确性。如下图所示,过程监督的奖励模型对同一问题的两个解决方案评分,左边的解决方案正确,右边不正确。绿色标注是高分数,红色标注是低分数,奖励模型能正确识别右边解决方案中的错误位置。

研究人员使用来自MATH测试集的问题来评估其过程监督和结果监督奖励模型,为每个问题生成许多解决方案,然后选择每个奖励模型排名最高的解决方案。
下图显示了最终达到正确答案的所选解决方案的百分比,过程监督奖励模型整体表现更好,并且随着研究人员对每个问题的解决方案考虑范围扩大,其性能差距也会扩大。因此,研究人员认为,过程监督奖励模型更加可靠。


03.
数学外224道问题评估
过程监督效果更优


研究人员还研究了主动学习的影响,他们估计主动学习可以使过程监督的数据效率提高2.6倍。
此外,为了探究奖励模型的泛化性,研究人员还对224道STEM问题进行了大规模的过程监督、结果监督评估,包括AP物理、AP微积分、AP化学、AMC10和AMC12考试,其中,过程监督的表现优于结果监督。

并且过程监督更有可能产生可解释的推理,因为它会鼓励大型语言模型遵循人类确认的逻辑思考过程。
在某些情况下,更安全的人工智能系统方法会导致其性能下降,会产生对齐税(alignment tax)成本,也就是大型语言模型要和人类的价值观对齐,这在一定程度上会约束大型语言模型的想象力。
OpenAI研究人员的结果表明,在数学领域,过程监督实际上会产生负对齐税。
目前尚不清楚这些结果能否完全推广到数学以外的领域,但研究人员认为,如果这些结果具有普遍性,过程监督就提供了一种比结果监督更高效、更一致的方法。

04.
结语:AI可解释性研究亟需加速


上个月,OpenAI用GPT-4来自动解释GPT-2的行为的研究打开了大模型思考黑盒,此次,在数学推理能力上,研究人员又通过过程奖励模型使得大模型的思考过程变得可追踪、可纠错,这些研究都使得AI的可解释性有了更大的进步空间。
从结果来看,过程监督奖励模型的效果目前只在数学推理领域得到有效印证,但正如OpenAI的研究人员所说,目前的研究方向对于过程监督在其他领域的影响以及未来的工作很重要。这些研究未来可以让大模型在内容生成、理解上展现出强大能力的同时,其“思考过程”也能被检测出是否有偏见或错误,从而让大模型的黑盒变得更加透明。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大妈霸占马路跳广场舞,结果被撞飞十几米,车主:不惯你臭毛病微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型请你去网吧的人还不算好朋友?别听课本瞎说!一身臭毛病的父母,也能教育好孩子营地日记(32)大雾山Opera推出Opera One,将取代Opera浏览器微软英伟达领投,2万张H100打造全球最强超算!一跃成为OpenAI最强劲敌!最高悬赏2万美元!OpenAI招募“捉虫师”,专给ChatGPT挑毛病老婆生日我来代班:一身臭毛病的父母,是对娃最好的教育《红叶恋歌》&《飞云之下》成年人最好的修养,就是“不瞎说”OpenAI撒钱了!给ChatGPT挑毛病,全球最高悬赏14万Hélène Binet:光的哲学家AMD放大!苏妈甩出最强AI芯片叫板老黄,可跑800亿参数大模型MathGPT来了!专攻数学大模型,解题讲题两手抓以2023年北京高考函数大题为例,给全国高中生上节高考数学解题课OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型1530亿颗晶体管!AMD甩出最强AI芯片,单个GPU跑大模型Agustín Hernández:中美洲建筑背景下的未来主义巨构天父的花园里GDP20强数据出炉!深圳狂飙,广州苏州失速!小毛病去药房吧!安省有两家Shoppers开设了诊所:儿童专属诊室太贴心了浅色背景的PPT太空了?纯属瞎说!学而思名师让语文考题模板化,学完肉眼可见的进步了|开团图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了张股长,瞎说什么大实话德国“中国战略”有一些西方人的臭毛病,我们该怼则怼该笑则笑大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?我们能向黑人学什么如果在中国选一个省生活,你会选哪里?悬赏两万:OpenAI宣布给ChatGPT挑毛病,即可拿钱免费领 | 画图解题,一学就会!《图解小学数学思维训练题》1~6年级学而思名师让语文考题模板化,学完肉眼可见的进步了(明10点开团)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。