Redian新闻
>
面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!

面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!

公众号新闻


三周前,面壁发布领先的开源大模型「Eurux-8x22B 」
相比口碑之作 Llama3-70B,发布时间更早,综合性能相当,尤其是拥有更强的推理性能——刷新开源大模型推理性能 SOTA,堪称开源大模型中「理科状元」。
激活参数仅 39B,支持 64k 上下文,相比 Llama3 速度更快、可处理更长文本。

图注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中,刷新开源大模型推理性能 SOTA。

图注:面壁Eurux-8x22B 模型综合性能比肩 Llama3-70B超越开源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b,以及闭源模型 GPT-3.5-turbo。
Eurux-8x22B 由 Mixtral-8x22B对齐而来。强劲战斗力,来自面壁 Ultra 对齐技术上新 UltraInteract 大规模、高质量对齐数据集。此前,面壁 Ultra 对齐系列数据集已经“强壮”了全球超 200 个大模型,堪称大模型上分神器

Eurux-8x22B模型+对齐数据集,全家桶开源:

 ➤  Eurux-8x22B模型GitHub地址:

🔗 https://github.com/OpenBMB/Eurus

 ➤  Eurux-8x22B模型HuggingFace地址:

🔗 https://huggingface.co/openbmb/Eurux-8x22b-nca


开源大模型「理科状元」

LeetCode 周赛超越 80% 人类选手

复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。

Eurux-8x22B 在代码和数学等复杂推理的综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称「理科状元」。特别在 LeetCode (180道LeetCode真题)和 TheoremQA(美国大学水准的STEM题目)这两个具有挑战性的基准测试中,超过现有开源模型。

图注:Eurux-8x22B 在代码和数学等复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA。

开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢?

在近期 LeetCode 周赛,这一检验人类程序员编程能力的真实竞技场上:Eurux-8x22B 在 Python 编程方面取得综合排名超越了 80% 的人类参赛选手的优秀成绩,成功解决四道算法题中的三道,可以初步通过互联网大厂的程序员编程面试。

下面是本次周赛中 Eurux-8x22B 对一道中等难度的算法题的真实解答:

除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。

例如给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到正确答案。

再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确的解答。

接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下。

高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误。

(需要说明的是,Eurux-8x22B 没有针对中文语料进行额外的微调和对齐!)

面壁 Ultra 对齐技术

大模型上分神器!

本次大模型「理科状元」 Eurux-8x22B 的优异表现,得益于来自面壁 Ultra 对齐技术大规模、高质量对齐数据集 UltraInterac上新
好数据,才有好模型。此前,面壁 Ultra 对齐技术已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

 ➤  UltraInteract对齐数据集地址:

🔗 https://github.com/OpenBMB/Eurus
UltraInteract 是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对,共有五十万(条)左右数据。
相比而言,Llama3-70B模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。
如此高质量的对齐数据是如何构建的呢? 
1. 严格质量控制和筛选。首先,面壁智能从多个开源数据集中抽样出难度较高、考察多样推理能力的 86k 复杂推理问题,并使用多个模型来采样答案。通过自动化格式检查和人工质量抽查结合的方式保证了答案格式的一致性和内容的正确性。 
2. 逐步推理。对于每条指令,模型都会按照思维链(CoT)格式进行逐步推理(如下图①),生成格式统一但模式多样的推理过程。 
3. 多轮交互。在模型给出推理过程之后,会自动与答案对比确定推理过程是否正确(如下图②),如果不正确,UltraInteract 会使用另一个批评模型(如下图③)指出错误并给出改进建议,生成新的逐步推理(如下图④),再与策略模型进行多轮交互(如下图⑤⑥),直到答案正确或达到轮数上限为止。这一步有助于模型学会反思和改错能力,在实际表现中让其可以更好地和人进行多轮交互问答。

图注:面壁Eurux-8x22B 模型在 LeetCode 和 T
4. 首创偏好树结构。为了深入探究偏好学习在复杂推理中的作用,UltraInteract 还为每个问题都构建了一棵偏好树(如下图所示),其中问题作为根节点,每个回复作为一个子节点,每一轮生成两个节点(一对一错相配对)。所有正确推理对应的节点都可以用于 SFT,而配对的节点则可以用于偏好学习。

图注:UltraInteract(第三列)是当前唯一一个树状结构的对齐数据集

除了 UltraInteract 数据集的大力加持,偏好对齐也对 Eurux-8x22B 的推理性能提升有所帮助。
研究团队发现,在推理任务中,提升正确答案的奖励值对于偏好对齐的效果十分重要,因为正确答案的空间比错误答案更有限,因此更加重要,模型在训练过程中不能偏离正确答案。然而,当前流行的 DPO 算法会使正确答案和错误答案的奖励值共同降低,因此在实验中效果不佳。团队采用另外两种偏好对齐算法 KTO 和 NCA,取得了更好的效果,能在 SFT 的基础上进一步提升模型性能。
UltraInteract 数据集开源后在社区受到了广泛好评。




大模型高效工厂


从领先的端侧模型「小钢炮」MiniCPM,到开源模型推理新 SOTA 的Eurux-8x22B,为什么面壁智能总能推出同等参数、性能更优的「高效大模型」
答案是,大模型是一项系统工程,面壁作为国内极少数兼具大模型算法与 Infra 能力的团队,拥有自研的全流程高效生产线
面壁 Ultra 对齐技术、Infra 工艺、独家「模型沙盒」实验和现代化数据工厂,从数据、训练到调校工艺环环相扣,一条优秀的大模型 Scaling Law 增长曲线由此而生。
Infra工艺方面,面壁构建了全流程优化加速工具套件平台 ModelForce,可以实现 10 倍推理加速,90% 成本降低。
算法方面,我们进行了千次以上的「模型沙盒」实验,这一更加科学的训模方法,以小见大,寻找高效模型训练配置,实现模型能力快速形成。

 💡  传送门汇总 

 ➤  Eurux-8x22B模型GitHub地址:

🔗 https://github.com/OpenBMB/Eurus

 ➤  Eurux-8x22B模型HuggingFace地址:
🔗 https://huggingface.co/openbmb/Eurux-8x22b-nca

 ➤  UltraInteract对齐数据集地址:

🔗 https://github.com/OpenBMB/Eurus



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
早于美国!全球首个每周注射一次的胰岛素在中国获批面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro贝索斯超越LV老板,再次问鼎全球首富|首席资讯日报超越Llama-2!微软新作Phi-3:手机上能跑的语言模型兩個夢​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%如何加速大模型推理?万字综述全面解析大语言模型高效推理技术时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型永居 (四十六)开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?Stability AI开源3B代码生成模型:可补全,还能Debug人人都是刘姥姥:刚和宝宝从纽约归来,又看了两场百老汇,看了一场大都会歌剧杀疯了!全面超越Llama3的强悍开源模型,仅9B,1000k上下文;GPT-4级别模型1年降价1万倍今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化安远AI&北京大学:2024基础模型的负责任开源-超越开源闭源的二元对立:负责任开源的内涵、实践与方案报告GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律三月可能要盘整了,收盘前清空了剩下的call李叔同天涯五友許幻園《送別 》大師境界俯身在塵埃里開出花來全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术斯坦福某 AI 团队抄袭面壁智能开源大模型/董明珠称「打工人要休闲可以辞职」/百度被《时代》周刊评为全球领导者一文读懂多家厂商的大模型训练、推理、部署策略首个全开源时序预测基础模型:Zero-shot预测能力比肩从零训练最优模型最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上阿里云突然发布全球最强开源模型 Qwen2,性能超越美国最强开源模型ICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。