Redian新闻
>
大模型学好编程,常识逻辑能力一起提升!网友:GPT-4更强的关键所在?

大模型学好编程,常识逻辑能力一起提升!网友:GPT-4更强的关键所在?

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

大模型代码能力强,顺便还能提升其他能力?

最近CMU的一项研究突然在网上火了起来。

因为它提出了一个结论,模型掌握好代码能力后,在一些非代码任务上也能表现出色。

类比于:学好数理化走遍天下都不怕的感觉。

这一下子把网友们的脑洞给打开了。

难道说GPT-4比GPT-3.5强的关键原因,就在这里?

有人提问:这是否意味着掌握复杂编程,就能获得更高的推理水平?

还有人好奇,是不是说学编程有助于提升逻辑能力,真的有道理。

想要解释这些疑问,还要来看研究本身。

这篇论文首次发表于ChatGPT(GPT-3.5)面世以前,它提出了一种方法,验证了代码语言大模型,在完成结构性常识推理上非常擅长

甚至比一些通用大模型专门微调过的效果好,碾压GPT-3、T5。

之所以又被人们热议起来,或许是因为这项研究中的一些观点为解释ChatGPT、GPT-4的能力涌现,提供了一些启发。

该论文被EMNLP 2022接收,相关数据和代码已上传至GitHub。

学学编程就能提升逻辑

该研究主要提出四方面工作:

1、代码语言模型比自然语言模型能更好处理结构化常识推理任务。

2、提出一种利用代码语言模型进行结构常识推理的方法:CoCoGEN。

3、在3个结构化常识推理任务上评估,证明CoCoGEN能优于微调/少样本测试下的自然语言大模型。

4、进行消融试验,测试数据格式、模型大小和少样本示例数量的影响。

大语言模型在挑战摘要、翻译、生成、问答等方面都有了不错的表现,目前还存在的一个挑战是如何进行结构化常识推理。

具体任务包括生成事件图、推理图、脚本、论证解释等。

和传统的常识推理任务不同,结构化常识需要根据自然语言输入,生成结构化输出。

这要求模型需要既理解语言内容,还能预测和生成复杂的结构。

而为了避免跨模态的复杂问题,现有的结构化常识生成模型都会修改问题的输出格式,比如将图形“扁平化”为节点对的列表(下图d),或者转换为DOT这类规范语言(下图c)。

但是大语言模型在处理这些输出时依旧存在困难,因为这些序列化的结构输出和大部分预训练数据存在很大差异。

而且在自然语言中,语义相关的词一般都离得很近,但是在结构化表达中它们可能离得很远。

这就导致大语言模型可能无法很好理解拓扑结构,所以想要模型完成这类任务还要进行特定训练。

与此同时,大语言模型在代码方面的能力越来越突出,代码也是一种结构化数据。

所以研究人员就想到,与其进行额外微调,为什么不利用代码能力来搞定结构化常识推理。

如下图b就是利用该方法的结果:

研究人员将该方法命名为Code for Commonsenses Generation(常识生成代码)模型,简称为CoCoGEN。

CoCoGEN使用一个由k(5-10)个Python类组成的提示。

在推理过程中,测试输入被转换为一个部分类,如上所示,附加到提示中,并由代码生成模型(如CodeX)完成。

研究人员使用CodeX发现它在生成代码上表现很好,总是能轻松转换成图形。

然后,研究人员进行了三项任务测试:

  • 脚本生成

  • 实体状态跟踪

  • 解释图生成

在脚本生成任务中,T5模型进行了微调,CURIE(text-curie-001)和DAVINCI(text-davinci-002)使用了15个示例进行少样本测试。

(CURIE和DAVINCI是基于GPT-3的两个模型)

结果显示,CoCoGEN的表现结果最好。

在以精确度(Precision)、召回率(Recall)和F1值作为评估指标时,同样是使用15个样本训练后,CoCoGEN的效果优于其他模型,并且优于在100个样本上微调过的T5模型。

另外两项任务中,CoCoGEN的表现也都优于其他模型。

同时该方法也验证了其他大模型在使用代码提示后,表现也会更好。

换言之,在让大模型精通编程后,它的结构常识能力就会提升。

网友锐评:这不就是野生版柯里-霍华德同构嘛?

据了解柯里-霍华德同构建立了逻辑和类型理论之间的关联,现实了推理系统和程序语言之间的相似性。

看来,推理可以等于证明,再等于编程了。

GPT-3也能涌现类似能力

与此同时,有人也发现了一个半年前的帖子,其中提出了一个观点和这项研究由类似之处:

大模型具有复杂推理能力的思维链,可能同样得益于代码训练。

这个帖子中列举了几个例子。

最初的GPT-3没有用代码训练,它并不具有思维链能力(chain-of-thought,CoT)。

text-davincic-001虽然指令调优了,但是执行CoT的效果也不理想。

PaLM的训练数据中有5%是代码,就能具备CoT了。

Copilot(据说是12B版本),也能做到CoT。

……

这种相关性的确非常有趣。

还有人觉得用代码训练大模型的好处可能有更多,比如语言模型预测下一个token往往是非常局部的,但是代码方面通常要求能更加“远距离”一些,比如完成一个括号闭合的操作。

你怎么看?

论文地址:
https://arxiv.org/abs/2210.07128

GitHub地址:
https://github.com/madaan/

参考链接:
https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了花百万读双语校,孩子却被教成了“文盲”…顺义妈急了:原来学好英语的关键在于中文?只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型「苹果 GPT」首次曝光/百度称文心大模型3.5能力已超GPT-3.5/《奥本海默》确定引进二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开主播实测:不懂编程、8小时用ChatGPT做出游戏,证明会编程才能用好AIBard还考不上哈佛?谷歌CEO劈柴预告它即将开挂,数学逻辑能力飙升【文字精华】OnBoard! x 硅谷徐老师|生成式AI系列4:对话微软大模型专家:GPT是否是通用人工智能的下一步当GPT-4反思自己错了:性能提升近30%,编程能力提升21%GPT-4.0对战GPT-3.5:GPT-3.5简直弱爆了!!!我和聊天机器人(AI)对话未知风险太大!马斯克等1000多名大佬发公开信:立即暂停训练比GPT-4更强大的AINature总结六大ChatGPT编程技巧:非常强大的编程辅助工具!名师观点丨白重恩:提升监管能力,是实现增长潜力的关键贼喊捉贼式的新疆指控,让人出离愤怒Google创始人回归打造更强大模型/ChatGPT Android应用下周发布/AI巨头承诺负责任地开发AI |灵感周报OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力OpenAI被曝将发布全新开源大模型,网友:GPT平替?2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报AI可能「毁灭人类」马斯克&1000名专家呼吁:暂停训练比GPT-4更强大的AI系统!骗子正在用假ChatGPT盗取信息!阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl每天少使用15分钟手机,可增强免疫、改善睡眠;让GPT-4自我反思:性能提升近30%,编程能力提升21%|本周值得读「ChatGPT之母」最新采访:GPT-4离超级智能还很远,半年内不会训练GPT-5GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样又见桐花开韦神出的这道题火了,GPTOpenAI遭集体诉讼;美团20.65亿元收购光年之外;谷歌AI模型将结合AlphaGo,比GPT-4更强|AIGC周观察第八期「成熟」大模型才能涌现?MIT:GPT-4能自我纠错代码,GPT-3.5却不行更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了 |【经纬低调分享】对话李志飞:大模型的关键在于如何把大模型用起来|年度AI对话立即停止训练比 GPT-4 更强的模型,至少六个月!马斯克、图灵奖得主等数千 AI 专家紧急呼吁冷却的不止季节(41)— 丧葬费遥思龙泉桃花宴Nature 总结六大 ChatGPT 编程技巧:是非常强大的编程辅助工具!达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败GPT作文能力比拼:GPT3.5、GPT4、百度文心一言、讯飞星火
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。