Redian新闻
>
比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类

比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类

公众号新闻

夕小瑶科技说 分享
Llama3 最近实在太火了!

它的性能匹敌 Gemini 1.5 Pro,接近GPT-4,赢得了“最强开源大模型”的称号。

国内外开源社区都为之感到振奋,果然开源大模型还是只能仰赖大洋彼岸的Meta吗?

其实不然,笔者惊喜地发现在国内竟然有一家比 Llama3 更早的开源大模型SOTA创造者——面壁智能

没错,就在 Llama3 发布(4 月 18 日)的前两天,面壁智能已经低调地开源了综合性能不输于 Llama3的大模型Eurux-8x22B它在代码和数学等体现大模型核心素质的复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称「理科状元」

不仅开源时间早于LlaMa3,Eurux-8x22B的激活参数仅有39B,推理速度更快,且目前支持 64k上下文,相比 Llama3-70B的8K上下文更具优势。

一句话总结:Eurux-8x22B 相比 Llama3-70B 更快、更长、理科更好

此外,Eurux-8x22B 由 Mistral-8x22B 对齐而来,综合性能不输 Llama3-70B

Eurux-8x22简直太牛了!这不禁让人好奇,它究竟为何这么强?

在回答这个问题之前,笔者其实一直在思考着一个问题。

不知道大家有没有发现,Llama 3诞生的背后 ,Meta 可是下了大血本——使用49000个H100、预训练数据超过15万亿token、微调对齐超过1000万条人工标注数据。

试问,像Meta这种烧钱的打法,全球能有几家公司玩得起?

难道大模型训练要被大公司垄断了吗?难道只有堆砌海量的GPU和数据才能打造出强劲的模型吗?

这背后其实关乎到了大模型行业最关键最致命的一个问题:有没有一种更高效更低成本的训练大模型的方法呢

还真就有!而且答案就藏在今天的主角面壁智能身上。

今天笔者就带大家仔细扒一扒面壁智能“比 Llama3 更早地打造开源大模型SOTA”背后的秘密。

这背后不仅藏着一个「大模型上分神器」——面壁 Ultra 对齐技术,还藏着面壁智能训练大模型最核心的秘诀:一整套全流程高效大模型生产线

Eurux-8x22B 模型和对齐数据,全家桶开源:

https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca

一、开源大模型「理科状元」:LeetCode 周赛超越80%的人类选手

复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。Eurux-8x22B在代码和数学等复杂推理的综合性能方面刷新开源大模型 SOTA。

具体而言,Eurux-8x22B在 LeetCode (180道LeetCode编程真题)和TheoremQA(美国大学水准的STEM题目)这两个具有挑战性的基准测试中,超过现有开源模型。

那么开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢?

代码能力方面,我们让它参加了近期的一场LeetCode 周赛,这是一个检验人类程序员编程能力的真实竞技场。

结果显示,Eurux-8x22B 的Python编程能力非常优秀,成功解决了四道算法题中的三道,其综合排名超越了80%的人类参赛选手,可以初步通过互联网大厂的程序员编程面试。

下面是本次周赛中Eurux-8x22B对一道中等难度的算法题的真实解答:

除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。

例如给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到正确答案。

再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确的解答。

接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下。

高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误。

(注:Eurux-8x22B 没有针对中文语料进行额外的微调和对齐。)

二、大模型上分神器:面壁 Ultra 对齐技术

为何 Eurux-8x22B 能刷新开源大模型推理性能SOTA,成为「理科状元」?

这背后主要得益于大模型上分神器——面壁 Ultra 对齐技术(Ultra Series)新增了大规模、高质量对齐数据集UltraInteract

UltraInteract是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的12个开源数据集的86K条指令和220K偏好对,共有五十万(条)左右数据。而相比之下,LLaMA 3-70B模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。如此高质量的对齐数据是如何构建的呢?

  • 严格质量控制和筛选。首先,我们从多个开源数据集中抽样出难度较高、考察多样推理能力的86k复杂推理问题,并使用多个模型来采样答案。通过自动化格式检查和人工质量抽查结合的方式保证了答案格式的一致性和内容的正确性。

  • 逐步推理。对于每条指令,模型都会按照思维链(CoT)格式进行逐步推理(如下图①),生成格式统一但模式多样的推理过程。

  • 多轮交互。在模型给出推理过程之后,会自动与答案对比确定推理过程是否正确(如下图②),如果不正确,UltraInteract会使用另一个批评模型(如下图③)指出错误并给出改进建议,生成新的逐步推理(如下图④),再与策略模型进行多轮交互(如下图⑤⑥),直到答案正确或达到轮数上限为止。这一步有助于模型学会反思和改错能力,在实际表现中让其可以更好地和人进行多轮交互问答。

▲UltraInteract两轮交互的过程
  • 首创偏好树结构。为了深入探究偏好学习在复杂推理中的作用,UltraInteract还为每个问题都构建了一棵偏好树(如下图所示),其中问题作为根节点,每个回复作为一个子节点,每一轮生成两个节点(一对一错相配对)。所有正确推理对应的节点都可以用于SFT,而配对的节点则可以用于偏好学习。
▲UltraInteract(第三列)是当前唯一一个树状结构的对齐数据集

除了UltraInteract数据集的大力加持,偏好对齐也对Eurux-8x22B的推理性能提升有所帮助。面壁发现,在推理任务中,提升正确答案的奖励值对于偏好对齐的效果十分重要,因为正确答案的空间比错误答案更有限,因此更加重要,模型在训练过程中不能偏离正确答案。然而,当前流行的DPO算法会使正确答案和错误答案的奖励值共同降低,因此在实验中效果不佳。面壁采用另外两种偏好对齐算法KTO和NCA,取得了更好的效果,能在SFT的基础上进一步提升模型性能。

UltraInteract 数据集在开源社区受到了广泛好评,面壁 Ultra 对齐技术此前已经“强壮”了全球超 200 个大模型,尤其擅长提升大模型「以小博大」能力,被网友誉为大模型界的大力丸!例如,在面壁 Ultra 数据集的加持下,Zephyr-7B 以更小规模,在不少指标上超越了 LLaMA2-70B-Chat;面壁 Ultra 数据集亦帮助「大模型中的小钢炮」面壁 MiniCPM-2B 取得与 Mistral-7B 一较高下惊艳的表现。

三、面壁智能「高效大模型」秘诀:全流程高效大模型生产线

从领先的端侧模型「小钢炮」MiniCPM,到开创开源模型推理性能新 SOTA 的Eurux-8x22B,为什么面壁智能总能推出同等参数、性能更优的「高效大模型」?

答案是,面壁深厚的大模型原创技术底蕴与全流程高效大模型生产线,塑造了这条格外惊艳的大模型Scaling Law增长曲线

对于大模型这项复杂的系统工程,除了上述高质量数据集和面壁 Ultra 对齐技术,面壁还自研了面壁Infra 工艺、「模型沙盒」算法,从数据原材料、到模型制作过程中精湛的训练与调校工艺环环相扣,打造出高效大模型独特竞争力。

Infra工艺方面,面壁构建了全流程优化加速工具套件平台ModelForce,可以实现 10 倍推理加速,90% 成本降低。如大模型训练“发动机”BMTrain,可以进行高效的大模型预训练与微调,与DeepSpeed等框架相比,BMTrain训练模型成本可节省90%。

算法方面,面壁进行了千次以上的「模型沙盒」实验,这一更加科学的训模方法,以小见大,寻找高效模型训练配置,实现模型能力快速形成。

面壁一直是开源的坚定拥抱者和践行者 ,他们深知开源对整个行业发展的促进作用,因此每次都会把数据、infra工具、模型等进行「全家桶开源」。面壁未来还将持续开源高效大模型及其背后的全流程高效大模型生产线,希望开源开放的精神最终将惠及所有人。

Eurus-8x22B模型+对齐数据集开源地址

https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca

MiniCPM 系列模型开源地址

https://github.com/OpenBMB/MiniCPM

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了参观加德纳陶瓷博物馆李彦宏:开源大模型不如闭源,后者会持续领先;周鸿祎:“开源不如闭源” 的言论是胡说八道周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报温哥华:租户不交房租,也不回邮件,我该怎么办?昨一宿没睡好!最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍华为 Pura 70 系列上架即售罄/Meta 发布全球最强开源大模型/理想汽车 L6 发布微软秒删堪比 GPT-4 的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE李彦宏内部评璩静风波;美国拟限制“开源 AI 大模型出口”;OpenAI 人工智能搜索产品有望于下周一推出 | AI 周报【年少多梦】还乡不衣锦AI早知道|B 站开源轻量级 AI 语言模型;阿里通义Qwen2成最强开源大模型开源日报 | 构建一个类似英伟达CUDA的开源生态;“AI程序员”大杀四方,人类程序员开始反击;Podman 5.0发布开源大模型火了!(附99个大模型微调模型/数据/工具)!集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder挪威霍宁斯沃格(Honningsvag),渔港小城Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事哈尔滨啤酒检出呕吐毒素;Meta发布开源大模型Llama 3丨大公司动态微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试Meta震撼发布Llama 3,一夜重回开源大模型铁王座阿里云发布最强开源大模型Qwen2,干翻Llama 3,比闭源模型还强编码数学击败GPT4-Turbo!DeepSeek-Coder-v2登顶竞技场最强开源编码模型真假开源:开源大模型的实际开放性探讨全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B美国拟限制“开源 AI 大模型出口”;百度副总裁“狼性职场言论”惹争议,李彦宏情绪激动点评;谷歌一半员工没干活?| Q资讯二丫的天眼开了马斯克正式开源 Grok-1,成为全球最大的开源大模型张核子回应张姗姗身份;雷军直播回应造车亏损;Meta发布最强开源大模型Llama 3;阿里拍卖回应前员工指控高管职场霸凌|邦早报性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。