国际科技财经博客移民网络热点娱乐民生时事公众号

>

代码数据会促进LLM的推理能力吗？

代码数据会促进LLM的推理能力吗？

2023-09-02 15:09

深度学习自然语言处理原创
作者：Winnie

代码数据对提升LLM的推理能力有效吗？为了解答这个问题，最近的一篇工作提出了CIRS（复杂度影响推理分数）这一新的指标，用来衡量代码数据的复杂性，进而验证不同复杂度的代码数据与LLM推理能力的关系。让我们一起来看看有什么有趣的发现吧。

进NLP群—>加入NLP交流群

Paper:
When Do Program-of-Thought Works for Reasoning?
Link：
https://arxiv.org/abs/2308.15452

💡什么是PoT(Program-of-Thought)？

在介绍这篇论文之前，先让我们回顾一下PoT（Program-of-Thought）。它是一种解决数值推理任务的方法，将计算和推理两个任务分离开来。具体来说，PoT将问题简化成编程逻辑，并用额外的语言解释器，例如用Python进行编译，得出结果。这种方法能够在几个数学数据集上显著提高了性能，超过了CoT的表现。

下图是CoT与PoT方法的对比。

🤔PoT什么条件下有效？

PoT虽然有所表现，但在什么条件下，它最能提升推理能力？为了解答这个问题，研究者提出了CIRS这一新指标。CIRS的目标是通过量化代码的结构和逻辑复杂度，来探讨它们如何影响LLM的推理能力。

🧮如何计算CIRS？

我们假定代码数据可以提升LLM推理能力，是由于下面两个原因：

结构上，与自然语言相比，代码具有复杂结构建模能力；
逻辑上，代码面向过程的逻辑有助于解决多步推理问题。

因此，CIRS计算代码复杂度从结构和逻辑两个方面衡量。

结构上：用一种叫做“抽象语法树”（AST）的技术来编码代码的结构信息。
逻辑上：通过计算代码中操作数和运算符的数量来衡量代码逻辑的复杂度。

最后，CIRS指标就是结构复杂度和逻辑复杂度的乘积。CIRS给了我们一个全面但直观的量化方式，来观察代码复杂度对LLM推理能力的影响。

📈代码数据的影响评估

研究进行了以下实验：

首先进行数据合成，并用CIRS计算代码数据的复杂度，根据计算结果，将数据分成三个不同的子集；
基于LLAMA1.0版本训练了三个不同参数大小的模型，从每个子集中随机选择1,700个实例来构建训练和验证数据集，验证不同复杂度的代码数据对模型性能的影响；
最后利用自动合成和分层算法，并以最有效的复杂度评估其在过滤数据上的性能，从源数据集过滤掉更多数据来训练增强的推理模型。

实验结果有几个关键发现：

1️⃣ 适度复杂度最佳：如果代码数据过于简单或复杂，LLM的推理能力反而会受到限制。

2️⃣ 参数越多越好：大型LLM（比如有750亿参数）在推理任务上表现得更出色。

3️⃣ 局限：当代码过于复杂，即使是大型LLM也难以理解和推理。

🚀 总结

尽管PoT在一些数据集上取得了比CoT更好的结果，但我们依然不清楚这种方法是如何促进推理的。这一研究是一个初步的尝试，不仅探索了代码数据对LLM推理能力的影响，还为如何设计更有效的推理模型提供了新的思路。

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

训练14分钟，超越Alpaca！华人团队发布「飞天羊驼」，基于LLM的数据过滤新范式基于MCTS和Residual-EBM的数学推理能力提升实践 MindMap: 将知识图谱引入LLMs，实现稳健且可解释的推理生儿养女，为了啥全麻会影响学习记忆能力吗？华人博导克妻损子到底怪谁？LLM-as-Agent、VLAM的机会、「算力困境」和对Transformer的质疑 LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证国外Java工程师力证：GPT-4不能解决逻辑谜题，但确实具备推理能力七个LLM的狼人杀之夜分析过688篇大模型论文，这篇论文综述了LLM的当前挑战和应用 GPT-4，Llama2，ChatGLM2，PaLM2共聚一堂 | LLM Day @KDD 2023 台灣的選擇 Fran?ais avec Nelly 陈丹琦新作：一个LLM的评估基准LLMBar LLM 全景图（The Landscape of LLM）LLM的考试过程原来是这样？C-Eval优等生考题实测 GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会微软发布基于LLM的代码生成神器，动动嘴就能写代码！BELLE-7B-1M逻辑推理超预期？10B量级开源中文对话LLM，谁最「懂」逻辑推理？BELLE-7B-1M逆袭ChatGLM？10B量级开源中文对话LLM，谁成常识问答任务的黑马？DALL·E 3 推理能力炸裂提升，OpenAI 抢跑“ChatGPT 原生”乳腺癌患者普遍血脂高？这会促进肿瘤复发转移吗？6.7k Star量的vLLM出论文了，让每个人都能轻松快速低成本地部署LLM服务从原理到代码理解语言模型训练和推理，通俗易懂，快速修炼LLM 幻觉处理国内最优！530亿参数Baichuan2推理能力飙升100%，首次开放API商用 Nature子刊：晒太阳会促进男性分泌饥饿素，刺激进食和增重，而女性不受影响刘知远等众多机构提出ToolLLM：促进大型语言模型掌握16000+真实世界的APIs LLM综述全新出炉：51页论文带你盘点LLM领域专业化技术 Medusa: 简单高效地解决LLM的生成延迟今晚直播 | ACL 2023原作解读：研究评测与提升大语言模型时间推理能力大模型掌握16000+真实世界API了，清华等机构ToolLLM的工具使用能力不输ChatGPT 旅游｜“西部坎昆”北美后花园宝藏度假地！住进Los Cabos五星全包酒店，躺平也能吃喝玩乐，超Chill的假期你来吗？！庆祝独立节：全镇出动看游行（多图）基于SRAM的存内计算CIM在生成式AI推理场景的应用 | 智芯科联合创始人兼CEO顾渝骢演讲预告

热点事件追踪