Redian新闻
>
OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!论文数据集全开放,直接拿下SOTA

OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!论文数据集全开放,直接拿下SOTA

公众号新闻
明敏 西风 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI一个简单的动作,让大模型数学能力直接达到SOTA。

而且直接开源论文数据集,包含80万个人类反馈标签!

这就是OpenAI的最新研究。基于GPT-4,他们微调了几个模型,分别采用不同的监督方法。

一种是传统的结果监督,只对最终正确答案进行奖励。

另一种则是过程监督,区别在于奖励增加,对每一个正确的推理步骤进行奖励。

结果这一点改变,让采用过程监督的模型Process Reward Model(PRM),可以解决MATH测试集代表子集中78%的问题,达到SOTA。

英伟达AI科学家Jim Fan大胆预测说,下一步OpenAI大概会用这种方法微调GPT-4。

OpenAI表示:

我们认为探索过程监督在数学之外领域的表现非常重要。如果这些结果具有普遍性,那意味着过程监督将成为比结果监督更有效的方法。

奖励增多、效果变好

话不多说,先看OpenAI给出的具体例子。

比如这样一道三角函数的题:

用过程监督的模型来算,效果会是这样的:


OpenAI表示,这道题对于大模型来说还是比较有挑战性的,GPT-4也不太能搞定(只有0.1%的情况生成结果完全没问题)。而使用过程奖励是可以算出正确答案的。

这也是目前大语言模型比较饱受诟病的问题,容易产生逻辑错误,也被称为“幻觉”。

表现最明显的领域就是数学。

即便是先进如GPT-4,这类问题也难以避免。

而降低幻觉的出现,又被视为走向AGI的关键一步。

此前为检测幻觉所使用的是结果监督,基于最终结果提供反馈,仅仅奖励最终正确的答案。

但效果显然还不太行,所以OpenAI想了个新招,把这种奖励增加会怎么样?

于是他们提出了过程监督方法,针对思维链中的每个步骤提供反馈,奖励每个正确的推理步骤。

结果表明,用MATH数据集进行测试后:

过程监督模型能够解决MATH测试集代表子集的78%的问题。效果优于结果监督。

而且随着每个问题考虑的解决方案的数量增加,性能差距也逐渐增大,也说明了过程监督的奖励模型更加可靠。

纵轴表示的是已解决的问题的百分比,红色线代表的是过程监督奖励模型(ORM),蓝色线代表的是结果监督奖励模型(PRM)

在测试中,过程监督有一个明显的优势:

可以准确指出解决问题的步骤中哪些是正确的,并且给出错误步骤的具体位置。

而这点在结果监督中,是具有挑战性的。

因此,在过程监督中,信用分配(credit assignment)更加容易。

而且在对齐方面,过程监督也优于结果监督

因为过程监督会直接奖励模型,按照对齐的思维链进行操作,每个步骤都会更精确。

产生的结果可解释性也更高,因为它鼓励模型遵循经过人类批准的过程。

相比之下,基于结果的监督可能会出现奖励不对齐的过程,而且通常更难进行审查。

此外,大模型还经常遇到一个问题叫做对齐税(alignment tax)。也就是想让模型输出更安全,那性能就会有所下降。

而过程奖励,在数学领域能让这个对齐税,变成负的,即模型安全性和性能都保障。

总之,过程奖励这个小窍门,一次性解决了大模型数学推理方面的多个问题。

在实验结果方面,OpenAI还给出了多个实例。

比如有一些情况,GPT-4会出错,但是基于过程奖励的PRM能揪出问题。

最近有30名学生参加了一次考试。如果有20名学生考了80分,8名学生考了90分,2名学生得分为100分,那么这次考试的班级平均分是多少?

下面是模型的作答结果:

前面的作答没有问题,但是在第7步中,GPT-4试图对表达式进行简化,出现了错误。

而奖励模型却察觉到了这个错误。

当然也有都不成功的例子,比如下面这道题GPT-4和PRM都被迷惑了:

来看一下模型的回答:


在第4步中,GPT-4错误地认为该序列每12项循环一次,而事实上是每10项循环一次。

而这种计数错误也迷惑到了奖励模型。

此外,OpenAI共给出了10个问题和解决方案。

可以看出,基于过程监督的奖励模型在一些问题上也会被迷惑住,但是在整体上明显表现得更好。

网友:再也不用做数学证明题了

很快,OpenAI的最新工作在各个平台上都引发了热烈讨论。

有人评价:

如果这个方法在非数学领域也能奏效,我们现在或许正处于游戏规则即将改变的时刻。

还有人说,这项工作如果用在互动、教育方面,会非常令人兴奋,尤其是数学领域。

这不,有人就说,看来以后不用再做数学家庭作业和证明题了(doge)。

用一张图来总结,大概就是酱婶儿的:

也有人提出了自己的担心:这种密集的奖励信号是否会导致模型更容易陷入局部最小值。

但是如果能够足够随机化、全局搜索,或许模型的鲁棒性更高。

值得一提的是,这种step by step的方法,不止一次在提升大模型性能上奏效。

之前,东京大学和谷歌的研究人员发现,只要在对话中加一句“Let’s think step by step”,GPT-3就能回答出以前不会的问题。

比如提问:

16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?

(问题不难,但要注意这是零样本学习,也就是说AI训练阶段从没见过同类问题。)

如果要求GPT-3直接写出“答案是几”,它会给出错误答案:8。

但加上让我们一步一步地思考这句“咒语”后,GPT-3就会先输出思考的步骤,最后给出正确答案:4!

而与之相呼应的是,这回OpenAI最新研究的论文题目就叫做《Let’s Verify Step by Step》。

论文地址:
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

数据集:
https://github.com/openai/prm800k

参考链接:
[1]https://twitter.com/OpenAI/status/1663957407184347136

[2]https://twitter.com/DrJimFan/status/1663972818160332800
[3]https://twitter.com/_akhaliq/status/1663981726647894027

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助OpenAI又放大招,ChatGPT插件将全面开放,这是首个官方认证的“投资Plugin”离谱!双非本科生选导师靠这手段直接拿下博导教授!知道真相后师弟惊呆了!《红叶恋歌》&《飞云之下》香港发布最新人才政策:全球176所院校留学生,直接拿工签!什么巨婴?男子嫌食堂阿姨米饭盛太少,直接拿盘子摔她脑门上…哈佛大学又爆出丑闻!专门研究诚信行为的顶尖学者自己被曝论文数据造假路过看了一眼,墨尔本夫妇就直接拿下!中介:他们没打算竞标iPhone 15 Pro Max 或涨价 / OpenAI进一步开放GPT-4 / Threads 用户突破3000万Shoppers可以看病了!看处方、直接拿药!头疼脑热、感染过敏等10分钟就好!倒霉!中国留学生车窗被砸,电脑被偷!论文数据丢失...大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理OpenAI火力全开!ChatGPT连夜登陆iOS,免费无广告、还支持语音恭喜DBC职梦Georgia Tech学员拿下Societe Generale (HK) 全职Offer!苹果悄悄研发 "Apple GPT "追赶OpenAI,没人记得Vison Pro了爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题OpenAI官宣:ChatGPT用户无需排队,直接可用联网和插件功能什么!手把手解读并复现LLaMA论文昨天,女儿把我气疯了5分钟告别丑图表,拯救论文数据标红,懒人用GraphPad Prism就够了7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型我们能向黑人学什么天父的花园里GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA澳洲工地华人老板用$1.37亿现金发工资,直接拿桶装!ATO和警方早已盯上(组图)【吃顆米大會(つっこみたいかい)】暖場《ふるさとはどこですか故鄉在何處》(小村之戀)GPT-4数学能力大蹦极!OpenAI爆火研究「过程监督」突破78.2%难题,干掉幻觉提升jenkins构建效率(解决git文件过大的问题)Agustín Hernández:中美洲建筑背景下的未来主义巨构投顾无证上岗,非销售人员卖基金拿奖励!监管出手了信用卡推荐 | Chase Southwest商业卡史高开卡奖励!而且是直接翻倍哦,现金价值高达$1800突发!OpenAI 重磅发布 ChatGPT iOS 客户端!无须手续费,直接开通Plus。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。