Redian新闻
>
7B开源数学模型干翻千亿GPT-4,中国团队出品

7B开源数学模型干翻千亿GPT-4,中国团队出品

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

7B开源模型,数学能力超过了千亿规模的GPT-4!

它的表现可谓是突破了开源模型的极限,连阿里通义的研究员也感叹缩放定律是不是失效了。

无需借助任何外部工具,它就能在竞赛水平的MATH数据集上达到51.7%的准确率。

在开源模型中,它第一个在该数据集上达到一半的准确率,甚至超过了早期和API版本的GPT-4。

这一表现让整个开源社区为之震撼,Stability AI的创始人Emad Mostaque也表示研发团队属实让人印象深刻,而且潜力被低估了。

它,就是深度求索团队最新开源的7B数学大模型DeepSeekMath。

7B模型力压群雄

为了评估DeepSeekMath的数学能力,研究团队使用了中(MGSM-zh、CMATH)(GSM8K、MATH)双语的数据集进行了测试。

在未使用辅助工具、仅靠思维链(CoT)提示的情况下,DeepSeekMath的表现均超越了其他开源模型,其中包括70B的数学大模型MetaMATH。

和自家推出的67B通用大模型相比,DeepSeekMath的成绩也有大幅提升。

如果考虑闭源模型,DeepSeekMath也是在几个数据集上都超越了Gemini Pro和GPT-3.5,在中文的CMATH上超越了GPT-4,MATH上的表现也与之接近。

但要注意的是,GPT-4按泄露规格是一个千亿参数的庞然大物,而DeepSeekMath参数量只有7B。

如果允许使用工具(Python)进行辅助,DeepSeekMath在竞赛难度(MATH)数据集上的表现还能再提高7个百分点。

那么,DeepSeekMath优异表现的背后,都应用了哪些技术呢?

基于代码模型打造

为了获得比从通用模型更好的数学能力,研究团队使用了代码模型DeepSeek-Coder-v1.5对其进行初始化。

因为团队发现,无论是在两阶段训练还是一阶段训练设置下,代码训练相比于通用数据训练都可以提升模型的数学能力。

在Coder的基础上,研究团队继续训练了5000亿token,数据分布如下图:

训练数据方面,DeepSeekMath使用的是从Common Crawl提取的120B高质量数学网页数据,得到了DeepSeekMath Corpus,总数据量是开源数据集OpenWebMath的9倍。

数据采集过程是迭代式进行的,经过四次迭代,研究团队收集了3500多万个数学网页,Token数量达到了1200亿。

为了确保训练数据中不包含测试集的内容(因为GSM8K、MATH中的内容在互联网上大量存在),研究团队还专门进行了过滤。

为了验证DeepSeekMath Corpus的数据质量,研究团队分别用MathPile等多个数据集训练了1500亿token,结果Corpus在多个数学基准上效果明显领先。

对齐阶段,研究团队首先构建了一个776K样本的中英文数学指导监督微调(SFT)数据集,其中包括CoT、PoT和工具集成推理等三种格式。

而在强化学习(RL)阶段,研究团队使用了一种名为“基于组的相对策略优化”(Group Relative Policy Optimization ,GRPO)的高效算法。

GRPO是近端策略优化(PPO)的一种变体,过程中传统的价值函数被替换为一个基于组的相对奖励估计,可以减少训练过程中的计算和内存需求。

同时,GRPO通过迭代过程进行训练,奖励模型会根据策略模型的输出不断更新,以确保策略的持续改进。

曾推出首个国产开源MoE模型

推出DeepSeekMath的深度求索团队,是国内开源模型领域的一名“头部选手”。

此前,该团队就曾推出过首个国产开源MoE模型DeepSeek MoE,它的7B版本以40%的计算量击败了相同规模的密集模型Llama 2。

作为通用模型,DeepSeek MoE在代码和数学任务上的表现就已十分亮眼,而且资源消耗非常低。

代码方面,该团队推出的DeepSeek-Coder的编程能力在代码生成、跨文件代码补全、以及程序解数学题等多个任务上均超过了同等规模的开源标杆CodeLllama。

同时,它也击败了GPT-3.5-Turbo,成为最接近GPT-4-Turbo的开源代码模型。

如前文所说,此次推出的DeepSeekMath,也正是在Coder的基础之上打造的。

而在X上,已经有人开始在期待Coder和Math的MoE版本了。

论文地址:
https://arxiv.org/abs/2402.03300
参考链接:
[1]
https://twitter.com/deepseek_ai/status/1754701472363958581
[2]https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
三个Agent顶个GPT-4,基于开源小模型的那种|中大阿里联合出品智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发双林奇案录第三部之鹤鼎莲方壶: 第二十四节抱抱脸正面挑战OpenAI,推出开源版GPT商店!完全免费、支持六大开源模型当底座CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%世界首个!中国团队主导!半导体材料大突破首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品从王局看日本居留的难度《细雨长歌》&《推开世界的门》清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航智谱AI推出新一代基座模型GLM-4,发起大模型开源基金《星级男人通鉴》第52章 福建人的媳妇室温超导有续集?中国团队再次证明LK-99可能存在迈斯纳效应,论文刚刚上传32K上下文,Mistral 7B v0.2 基模型突然开源了2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源走吧,乘着火车转南疆(上)ChatGPT参数规模被扒:只有7B号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分性能逼近GPT-4,开源Mistral-Medium意外泄露?CEO最新回应来了杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦!最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4中国团队,公开“大芯片”AI机器人做满汉全席?! 斯坦福华人团队出品,做饭洗碗家务包干!Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报王小川旗下百川智能千亿大模型Baichuan 3,中文评测超越GPT-4;美国启动国家AI计划推动开放式AI研究丨AIGC日报将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7BLLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力讯飞星火V3.5整体接近GPT-4 Turbo!首个13B开源大模型发布,深度适配国产算力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。