因果推理效果比肩ChatGPT，封神榜推出燃灯模型

2022-12-16 06:12

机器之心专栏

编机器之心编辑部

最近，AIGC 行业的火爆得益于人工智能 (AI) 技术的快速发展，元宇宙数字人、游戏 NPC、复杂场景的控制和决策等越来越多的应用对模型认知能力的强烈需求日益凸显。以预训练大模型为基座，着力于探究语言模型的认知能力是 IDEA 研究院认知计算与自然语言研究中心（IDEA-CCNL）“盖亚计划”的重要方向。

“盖亚计划”由 IDEA 研究院认知计算与自然语言研究中心发起，致力于在预训练大模型时代建设 AIGC 的基础设施。

为赋能中文 AIGC 行业，IDEA-CCNL 封神榜团队宣布公开最新的研究成果，开放首个因果推理生成 API，并开源对应 50 亿参数模型—燃灯，包括演绎推理生成（Randeng-Deduction）与反绎推理生成（Randeng-Abduction）, 在部分推理生成任务上其效果甚至可以超过 ChatGPT。以自然语言作为思考推理和输出的媒介，模型凭借其强大的语言能力在中文因果语料上学习，逐步具备常识知识以及更高层次的推理能力，如演绎推理、反绎推理、反事实推理、隐含知识挖掘等。在具备了因果推理能力的基础上，模型能够模仿人类思考过程，实现语言层面的自动多步推理，展示出其巨大的潜在应用价值，帮助拓展了人类的认知边界。

目前，因果推理生成 API 及在线体验 demo 已经开放，对应模型已经开源至 Huggingface 平台：

燃灯演绎推理(Randeng-Deduction)
API：https://api.fengshenbang-lm.com/v1/deductiveReasoning
模型：IDEA-CCNL/Randeng-TransformerXL-5B-Deduction-Chinese
燃灯反绎推理(Randeng-Abduction)
API：https://api.fengshenbang-lm.com/v1/abductiveReasoning
模型：IDEA-CCNL/Randeng-TransformerXL-5B-Abduction-Chinese
在线 demo 体验
https://ccnl.fengshenbang-lm.com/single/reasoning/

下面将从多个维度来阐述如何使用燃灯因果推理模型，燃灯能做到什么程度和效果以及在每个维度上和 ChatGPT 的对比，帮助大家深入了解。

基础推理能力：多步推理

基于 Randeng-Deduction 模型，可以进行多步因果推理。给定具体的一个事实推理前提条件（如下图 1 所示的根节点），Randeng-Deduction 模型能够以自然语言的形式迭代地产生该事件可能导致的结果与影响，最终形成庞大的因果推理树。

图 1 多步因果推理树

而 ChatGPT 基于 “债券市场收益率快速下滑” 这一事实给出了单链多步推理的结果，推理过程存在一点和前提事实矛盾的地方— 由 “债券市场收益率快速下滑” 推理出了“债券收益率上升”。（如下图 2）

图 2 ChatGPT 的多步因果推理结果

基础推理能力：演绎 + 反绎推理

将 Randeng-Deduction 模型与 Randeng-Abduction 模型结合，能够同时进行演绎和反绎多步推理，让模型分析导致事件发生的一系列原因（图 3 左）以及该事件产生的结果（图 3 右），赋予了语言模型思考因果关系的能力。

图 3 反绎推理树 (左) 和因果推理树(右)

ChatGPT 的单步反绎推理也能够给出导致 “玉米价格持续上涨” 的多方面因素，在这个维度上达到的效果比较一致。

图 4 ChatGPT 的反绎推理结果

基础推理能力：三段论和反事实推理

Randeng-Deduction 模型具备丰富的常识知识，但其强大的推理生成能力并非依赖于对于知识的记忆。采用三段论的形式，Randeng-Deduction 模型既能在正确的事实上进行演绎推理（图 5 上支、图 6 上支），同时也能运用常识知识进行反事实推理（图 5 下支、图 6 下支）。

图 5 三段论和反事实推理①

图 6 三段论和反事实推理②

而对应于图 6 的输入，ChatGPT 未能正确地进行反事实推理，且混淆了变温动物和恒温动物的定义。

图 7 ChatGPT 的反事实推理结果结果

高级推理能力：问题制导下的自动推理

利用 Randeng-Deduction 模型的推理能力，加上蒙特卡洛树搜索（MCTS）算法，可以实现问题制导下的自动推理。图 8 展示了在给定问题后，基于前提事实推出的因果链条。

图 8 问题制导下的自动推理（仅展示 MCTS 中概率最大的单条路径）

通过调整提示（prompt）输入，ChatGPT 也同样能够针对前提事实，给出回答目标问题的推理链条。在这个任务上虽然 Randeng- Deduction 和 ChatGPT 给出的推理链条思考角度不同，但都成功地回答了目标问题。

图 9 ChatGPT 针对提问进行多步因果推理的结果

高级推理能力：无限推理

借助于 Randeng-Deduction 模型强大的因果推理生成能力，构建自动推理系统，让机器无休止地自主思考和推理。但受限于资源及缺乏对应结果评估和选择模型，ChatGPT 目前还无法做到无限推理。

图 10 “永不停止”的自动因果推理（仅展示部分推理结果，未展示连接关系）

背后的训练技术揭秘

Randeng-Deduction 模型与 Randeng-Abduction 模型采用自回归的方式，将因果命题的生成抽象为给定前提命题的条件生成任务。我们选用 50 亿参数量的 Transformer-XL 作为基础模型，预先在开放域中文因果语料上进行了自回归因果生成任务的训练，使其具备了一定的因果生成能力。为了让模型突破训练数据的局限，强化其因果推理的能力，让模型并非单纯 “回忆” 训练数据，我们尝试引入了 3.3 亿参数量的 RoBERTa 模型作为因果关系判别模型，结合两个因果生成模型开展了自洽（Self-consistent）闭环迭代训练。在闭环中，生成模型凭借各自的因果生成能力为闭环系统提供了源源不断的伪样本，判别模型从多样的伪样本中筛选供自身以及生成模型训练的样本。在闭环运转的过程中，三个模型逐渐从不同的角度（演绎生成、反绎生成、因果关系判断）对因果推理达成一致，得到持续的提升。