Redian新闻
>
代码数据会促进LLM的推理能力吗?

代码数据会促进LLM的推理能力吗?

科技

深度学习自然语言处理 原创
作者:Winnie

代码数据对提升LLM的推理能力有效吗?为了解答这个问题,最近的一篇工作提出了CIRS(复杂度影响推理分数)这一新的指标,用来衡量代码数据的复杂性,进而验证不同复杂度的代码数据与LLM推理能力的关系。让我们一起来看看有什么有趣的发现吧。

进NLP群—>加入NLP交流群

Paper:
When Do Program-of-Thought Works for Reasoning?

Link:
https://arxiv.org/abs/2308.15452

💡什么是PoT(Program-of-Thought)?

在介绍这篇论文之前,先让我们回顾一下PoT(Program-of-Thought)。它是一种解决数值推理任务的方法,将计算和推理两个任务分离开来。具体来说,PoT将问题简化成编程逻辑,并用额外的语言解释器,例如用Python进行编译,得出结果。这种方法能够在几个数学数据集上显著提高了性能,超过了CoT的表现。

下图是CoT与PoT方法的对比。

🤔PoT什么条件下有效?

PoT虽然有所表现,但在什么条件下,它最能提升推理能力?为了解答这个问题,研究者提出了CIRS这一新指标。CIRS的目标是通过量化代码的结构和逻辑复杂度,来探讨它们如何影响LLM的推理能力。

🧮如何计算CIRS?

我们假定代码数据可以提升LLM推理能力,是由于下面两个原因:

  • 结构上,与自然语言相比,代码具有复杂结构建模能力;
  • 逻辑上,代码面向过程的逻辑有助于解决多步推理问题。

因此,CIRS计算代码复杂度从结构和逻辑两个方面衡量。

  • 结构上:用一种叫做“抽象语法树”(AST)的技术来编码代码的结构信息。
  • 逻辑上:通过计算代码中操作数和运算符的数量来衡量代码逻辑的复杂度。

最后,CIRS指标就是结构复杂度和逻辑复杂度的乘积。CIRS给了我们一个全面但直观的量化方式,来观察代码复杂度对LLM推理能力的影响。

📈代码数据的影响评估

研究进行了以下实验:

  • 首先进行数据合成,并用CIRS计算代码数据的复杂度,根据计算结果,将数据分成三个不同的子集;
  • 基于LLAMA1.0版本训练了三个不同参数大小的模型,从每个子集中随机选择1,700个实例来构建训练和验证数据集,验证不同复杂度的代码数据对模型性能的影响;
  • 最后利用自动合成和分层算法,并以最有效的复杂度评估其在过滤数据上的性能,从源数据集过滤掉更多数据来训练增强的推理模型。

实验结果有几个关键发现:

1️⃣ 适度复杂度最佳:如果代码数据过于简单或复杂,LLM的推理能力反而会受到限制。

2️⃣ 参数越多越好:大型LLM(比如有750亿参数)在推理任务上表现得更出色。

3️⃣ 局限:当代码过于复杂,即使是大型LLM也难以理解和推理。

🚀 总结

尽管PoT在一些数据集上取得了比CoT更好的结果,但我们依然不清楚这种方法是如何促进推理的。这一研究是一个初步的尝试,不仅探索了代码数据对LLM推理能力的影响,还为如何设计更有效的推理模型提供了新的思路。



进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Fran?ais avec Nelly华人博导克妻损子到底怪谁?LLM-as-Agent、VLAM的机会、「算力困境」和对Transformer的质疑从原理到代码理解语言模型训练和推理,通俗易懂,快速修炼LLM台灣的選擇6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务乳腺癌患者普遍血脂高?这会促进肿瘤复发转移吗?国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力全麻会影响学习记忆能力吗?BELLE-7B-1M逻辑推理超预期?10B量级开源中文对话LLM,谁最「懂」逻辑推理?生儿养女,为了啥BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?陈丹琦新作:一个LLM的评估基准LLMBar分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用Medusa: 简单高效地解决LLM的生成延迟训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式七个LLM的狼人杀之夜微软发布基于LLM的代码生成神器,动动嘴就能写代码!旅游|“西部坎昆”北美后花园宝藏度假地 !住进Los Cabos五星全包酒店,躺平也能吃喝玩乐,超Chill的假期你来吗?!庆祝独立节:全镇出动看游行(多图)DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证Nature子刊:晒太阳会促进男性分泌饥饿素,刺激进食和增重,而女性不受影响基于SRAM的存内计算CIM在生成式AI推理场景的应用 | 智芯科联合创始人兼CEO顾渝骢演讲预告​基于MCTS和Residual-EBM的数学推理能力提升实践MindMap: 将知识图谱引入LLMs,实现稳健且可解释的推理LLM的考试过程原来是这样?C-Eval优等生考题实测LLM综述全新出炉:51页论文带你盘点LLM领域专业化技术GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023今晚直播 | ACL 2023原作解读:研究评测与提升大语言模型时间推理能力幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用大模型掌握16000+真实世界API了,清华等机构ToolLLM的工具使用能力不输ChatGPT刘知远等众多机构提出ToolLLM:促进大型语言模型掌握16000+真实世界的APIsLLM 全景图 (The Landscape of LLM)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。