面壁低调开源新模型：早于Llama 3、比肩Llama 3、推理超越Llama 3！

2024-05-07 14:05

三周前，面壁发布领先的开源大模型「Eurux-8x22B 」。

相比口碑之作 Llama3-70B，发布时间更早，综合性能相当，尤其是拥有更强的推理性能——刷新开源大模型推理性能 SOTA，堪称开源大模型中「理科状元」。

激活参数仅 39B，支持 64k 上下文，相比 Llama3 速度更快、可处理更长文本。

图注：面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中，刷新开源大模型推理性能 SOTA。

图注：面壁Eurux-8x22B 模型综合性能比肩 Llama3-70B，超越开源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b，以及闭源模型 GPT-3.5-turbo。

Eurux-8x22B 由 Mixtral-8x22B对齐而来。强劲战斗力，来自面壁 Ultra 对齐技术上新 UltraInteract 大规模、高质量对齐数据集。此前，面壁 Ultra 对齐系列数据集已经“强壮”了全球超 200 个大模型，堪称大模型上分神器。

Eurux-8x22B模型+对齐数据集，全家桶开源：

➤ Eurux-8x22B模型GitHub地址：

🔗 https://github.com/OpenBMB/Eurus

➤ Eurux-8x22B模型HuggingFace地址：

🔗 https://huggingface.co/openbmb/Eurux-8x22b-nca

开源大模型「理科状元」

LeetCode 周赛超越 80% 人类选手

复杂推理能力是体现大模型性能差异的最核心能力之一，也是大模型真正落地应用所需的关键能力所在。

Eurux-8x22B 在代码和数学等复杂推理的综合性能方面超越 Llama3-70B，刷新开源大模型 SOTA，堪称「理科状元」。特别在 LeetCode （180道LeetCode真题）和 TheoremQA（美国大学水准的STEM题目）这两个具有挑战性的基准测试中，超过现有开源模型。

图注：Eurux-8x22B 在代码和数学等复杂推理综合性能方面超越 Llama3-70B，刷新开源大模型 SOTA。

开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢？

在近期 LeetCode 周赛，这一检验人类程序员编程能力的真实竞技场上：Eurux-8x22B 在 Python 编程方面取得综合排名超越了 80% 的人类参赛选手的优秀成绩，成功解决四道算法题中的三道，可以初步通过互联网大厂的程序员编程面试。

下面是本次周赛中 Eurux-8x22B 对一道中等难度的算法题的真实解答：

除了代码能力优秀，Eurux-8x22B 解答数学题也是轻而易举。

例如给它一道高中排列组合题，Eurux-8x22B 首先给出了清晰的解题思路，然后一步步地拆解执行，再进行结果汇总，最后得到正确答案。

再考察它一道代数题，Eurux-8x22B 直击要害，运用二项式定理，清晰简洁地给出了正确的解答。

接着给它一道向量代数题，Eurux-8x22B 也能轻松拿下。

高考函数题可能是令很多人回忆起来就头疼的一类题，Eurux-8x22B 也能解答无误。

（需要说明的是，Eurux-8x22B 没有针对中文语料进行额外的微调和对齐!）

面壁 Ultra 对齐技术

大模型上分神器！

本次大模型「理科状元」 Eurux-8x22B 的优异表现，得益于来自面壁 Ultra 对齐技术的大规模、高质量对齐数据集 UltraInteract 上新。

好数据，才有好模型。此前，面壁 Ultra 对齐技术已经“强壮”了全球超 200 个大模型，堪称大模型上分神器。

➤ UltraInteract对齐数据集地址：

🔗 https://github.com/OpenBMB/Eurus

UltraInteract 是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集，包含了覆盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对，共有五十万（条）左右数据。

相比而言，Llama3-70B模型则是使用了千万量级的对齐数据，这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。

如此高质量的对齐数据是如何构建的呢？

1. 严格质量控制和筛选。首先，面壁智能从多个开源数据集中抽样出难度较高、考察多样推理能力的 86k 复杂推理问题，并使用多个模型来采样答案。通过自动化格式检查和人工质量抽查结合的方式保证了答案格式的一致性和内容的正确性。

2. 逐步推理。对于每条指令，模型都会按照思维链（CoT）格式进行逐步推理（如下图①），生成格式统一但模式多样的推理过程。

3. 多轮交互。在模型给出推理过程之后，会自动与答案对比确定推理过程是否正确（如下图②），如果不正确，UltraInteract 会使用另一个批评模型（如下图③）指出错误并给出改进建议，生成新的逐步推理（如下图④），再与策略模型进行多轮交互（如下图⑤⑥），直到答案正确或达到轮数上限为止。这一步有助于模型学会反思和改错能力，在实际表现中让其可以更好地和人进行多轮交互问答。

图注：面壁Eurux-8x22B 模型在 LeetCode 和 T

4. 首创偏好树结构。为了深入探究偏好学习在复杂推理中的作用，UltraInteract 还为每个问题都构建了一棵偏好树（如下图所示），其中问题作为根节点，每个回复作为一个子节点，每一轮生成两个节点（一对一错相配对）。所有正确推理对应的节点都可以用于 SFT，而配对的节点则可以用于偏好学习。

图注：UltraInteract（第三列）是当前唯一一个树状结构的对齐数据集

除了 UltraInteract 数据集的大力加持，偏好对齐也对 Eurux-8x22B 的推理性能提升有所帮助。

研究团队发现，在推理任务中，提升正确答案的奖励值对于偏好对齐的效果十分重要，因为正确答案的空间比错误答案更有限，因此更加重要，模型在训练过程中不能偏离正确答案。然而，当前流行的 DPO 算法会使正确答案和错误答案的奖励值共同降低，因此在实验中效果不佳。团队采用另外两种偏好对齐算法 KTO 和 NCA，取得了更好的效果，能在 SFT 的基础上进一步提升模型性能。

UltraInteract 数据集开源后在社区受到了广泛好评。