Redian新闻
>
面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B

面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B

公众号新闻

   整理 | 褚杏娟

在 4 月 18 日 Llama3 发布前两天,面壁智能低调开源了大模型 Eurux-8x22B。据悉,该模型在代码和数学等体现大模型核心素质的复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称“理科状元”。

除了开源时间早于 Llama3,Eurux-8x22B 的激活参数仅有 39B,推理速度更快,目前支持 64k 上下文,相比之下 Llama3-70B 的上下文大小为 8K。

此外,Eurux-8x22B 由 Mistral-8x22B 对齐而来,综合性能不输 Llama3-70B。

Eurux-8x22B 模型和对齐数据,全家桶开源:

https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca
LeetCode 周赛超越 80% 人类选手
复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。根据测评,Eurux-8x22B 在代码和数学等复杂推理的综合性能方面刷新开源大模型 SOTA。

具体而言,Eurux-8x22B 在 LeetCode (180 道 LeetCode 编程真题)和 TheoremQA(美国大学水准的 STEM 题目)这两个具有挑战性的基准测试中,超过现有开源模型。

那么开源大模型“理科状元”Eurux-8x22B 在实际应用中表现如何呢?

代码能力方面,面壁智能让其参加了近期的一场 LeetCode 周赛,这是一个检验人类程序员编程能力的真实竞技场。

结果显示,Eurux-8x22B 的 Python 编程能力非常优秀,成功解决了四道算法题中的三道,其综合排名超越了 80% 的人类参赛选手,可以初步通过互联网大厂的程序员编程面试。下面是周赛中 Eurux-8x22B 对一道中等难度算法题的真实解答:

除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。

例如,给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到了正确答案。

再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确解答。

接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下:

高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误:

(注:Eurux-8x22B 没有针对中文语料进行额外的微调和对齐)

大模型“上分神器”

面壁智能是国内极少数兼具大模型算法与 infra 能力的团队:匹配大模型作为系统工程的本质要求,打造了一条从数据原材料、到模型制作过程中训练与调校工艺环环相扣的全流程高效模型生产线,被戏称为“大模型界最强 Buff 厂”。

本次 Eurux-8x22B 更快、更长、理科更好的全方位惊艳成绩,即来自面壁 Ultra 对齐技术(Ultra Series)更新:新增了大规模、高质量对齐数据集 UltraInteract。

UltraInteract 是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对,共有五十万(条)左右数据。而相比之下,LLaMA 3-70B 模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。

面壁智能团队是如何构建高质量的对齐数据?

  • 严格质量控制和筛选。首先,面壁从多个开源数据集中抽样出难度较高、考察多样推理能力的 86k 复杂推理问题,并使用多个模型来采样答案。通过自动化格式检查和人工质量抽查结合的方式保证了答案格式的一致性和内容的正确性。

  • 逐步推理。对于每条指令,模型都会按照思维链(CoT)格式进行逐步推理(如下图①),生成格式统一但模式多样的推理过程。

  • 多轮交互。在模型给出推理过程之后,会自动与答案对比确定推理过程是否正确(如下图②),如果不正确,UltraInteract 会使用另一个批评模型(如下图③)指出错误并给出改进建议,生成新的逐步推理(如下图④),再与策略模型进行多轮交互(如下图⑤⑥),直到答案正确或达到轮数上限为止。这一步有助于模型学会反思和改错能力,在实际表现中让其可以更好地和人进行多轮交互问答。

图注:UltraInteract 两轮交互的过程

  • 首创偏好树结构。为了深入探究偏好学习在复杂推理中的作用,UltraInteract 还为每个问题都构建了一棵偏好树(如下图所示),其中问题作为根节点,每个回复作为一个子节点,每一轮生成两个节点 (一对一错相配对)。所有正确推理对应的节点都可以用于 SFT,而配对的节点则可以用于偏好学习。

图注:UltraInteract(第三列)是当前唯一一个树状结构的对齐数据集

除了 UltraInteract 数据集的大力加持,偏好对齐也对 Eurux-8x22B 的推理性能提升有所帮助。

面壁智能团队发现,在推理任务中,提升正确答案的奖励值对于偏好对齐的效果十分重要,因为正确答案的空间比错误答案更有限,因此更加重要,模型在训练过程中不能偏离正确答案。然而,当前流行的 DPO 算法会使正确答案和错误答案的奖励值共同降低,因此在实验中效果不佳。面壁智能采用了另外两种偏好对齐算法 KTO 和 NCA,取得了更好的效果,能在 SFT 的基础上进一步提升模型性能。

此外,UltraInteract 数据集也在开源社区受到了广泛好评:

据悉,面壁 Ultra 对齐技术此前已经“强壮”了全球超 200 个大模型,尤其擅长提升大模型“以小博大”能力。例如,在面壁 Ultra 数据集的加持下,Zephyr-7B 以更小规模,在不少指标上超越了 LLaMA2-70B-Chat,同时帮助“小钢炮”MiniCPM-2B 取得与 Mistral-7B 一较高下的惊艳表现。

面壁智能表示,未来将持续开源高效大模型及其数据集,开源开放的精神最终将惠及所有人。

 内容推荐

探索智能科技的新边疆,《2024 年第 1 季度中国大模型季度监测报告》正式发布!OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来,正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中,AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号,回复「季度报告」领取。

 活动推荐

AICon 全球人工智能开发与应用大会暨大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。


今日荐文



26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要


神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了


大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的不是技术?

你也「在看」吗?👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要阿里云重磅发布开源模型Qwen2,性能超Llama3-70及国内众多闭源模型面壁智能CEO发文回应斯坦福某AI团队“抄袭”:感到遗憾集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder开源大模型火了!(附99个大模型微调模型/数据/工具)!开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4余承东谈智选车:卖 30 万元以下都亏损/面壁智能 CEO 谈 Apple 智能/特斯拉 FSD 将在上海落地试点再回首 (九)回中国, 外国人的福利和卷周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报对话面壁智能CEO李大海:开源模式更像“蚂蚁雄兵”,能够有更广泛的创新探索340B险胜70B,Kimi机器人贴脸“嘲讽”英伟达新开源模型面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限分期付款的秘诀!小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上奔驰新E说车文案;农村不婚潮;应对母亲逼婚,她选择形婚做同妻谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择性能超越 GPT-4 Turbo!「商汤日日新」大升级,国产大模型超市开张了闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香AI早知道|B 站开源轻量级 AI 语言模型;阿里通义Qwen2成最强开源大模型卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事阿里云突然发布全球最强开源模型 Qwen2,性能超越美国最强开源模型斯坦福团队抄袭国产大模型,面壁智能创始人:受到国际认可/百度被《时代》周刊评为全球领导者/特斯拉回应「单踏板模式被禁」传言万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!AI早知道|月之暗面回应Kimi推出付费方案;面壁智能推出多模态模型比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类希腊苏达湾(Souda Bay),黎明曙光对话面壁智能李大海:AGI是一场马拉松,我们不急于当破风者斯坦福某 AI 团队抄袭面壁智能开源大模型/董明珠称「打工人要休闲可以辞职」/百度被《时代》周刊评为全球领导者
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。