Redian新闻
>
秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用,背后公司来自私募巨头

秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用,背后公司来自私募巨头

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号QbitAI

国产大模型刚刚出了一位全新选手:

参数670亿的DeepSeek。

它在近20个中英文的公开评测榜单上直接超越了同量级、700亿的Llama 2

并尤其以推理、数学和编码能力为突出。

其中在数学能力上,它测了Grok刚刚参与过的匈牙利今年最新的高中数学考试题,得了65分

对比Grok当时公布的成绩:59分,以及GPT-4的68分,表现十分出色。

DeepSeek主打一个发布即开源:

共包含70亿和670亿两个参数版本,每个版本均含基础模型和指令微调模型,无需申请,即可免费商用

同时,它已开放了全面内测,注册一下就能玩。

Ps. DeepSeek的中文能力在GPT-3.5之上,可以使用中文进行测试。

在推特上,DeepSeek也引起了一大批技术同行的关注:

早期测试过的人表示没毛病。

还有人赞誉DeepSeek弥补了开源LLM在数学和编码上的短板。

那么,DeepSeek是如何训练出来的?

与Llama架构相同

DeepSeek使用与Llama相同的架构,即自回归Transformer解码器架构。

其中70亿参数的版本使用多头注意力,670亿参数版本使用分组查询注意力。

预训练在包含2万亿个中英文token的数据集(序列长度4096)和AdamW优化器上进行。

其中70亿参数版本的模型的训练batch size为2304,学习率为4.2e-4;670亿参数版本的模型的batch size为4608,学习率为3.2e-4。

DeepSeek的训练过程中特别采用了多步学习率计划

先从2000个预测步骤开始,然后在1.6万亿token时逐步达到最大值的31.6%,在1.8万亿token时逐步达到最大值的10%。

有网友看完表示:

这种从1.6万亿token时开启的学习率冷却阶段有点类似于“Scaling Vision Transformers”那篇论文中的lr计划消融操作。

这也与Llama的余弦学习率衰减(要求它们提前指定步数)完全不同,非常有趣。

下图是作者发布的DeepSeek训练损失曲线以及在几个基准上的曲线图:

数学和编码能力突出

我们重点关注DeepSeek进行的如下三大类测试结果。

一个是今年5月才发布的2023年匈牙利高中数学考试题。

尽管DeepSeek已经在GSM8k和MATH这两个标准基准上取得了不错的成绩:

但由于存在过度拟合这些数据集的风险,作者还是决定评估一下样本外的数学泛化能力。

如下图所示,位于右上角的670亿参数DeepSeek最终在样本内数学能力(纵轴GSM8K)排名第三,仅次于Claude 2和GPT-4,但在样本外数学能力(横轴Exam Score)排名第二,仅次于GPT-4

第二个是考验DeepSeek指令跟随能力的测试。

在此,作者使用了谷歌11月15日刚刚发布的指令跟随评测集,来评价模型的“听话程度”。

结果是领先一众开源模型,但59.1分的成绩与GPT-4还有20分的差距。

最后是代码能力测试。

同样,作者在这里重点关注了样本外能力,选择的是LeetCode今年7月2日到11月12日的最新真题进行测试。

结果是比国内常见的大模型都要好很多,并且也远远超越了GPT 3.5。

背后公司是谁?

经搜索,DeepSeek背后的公司名叫深度求索。base位于北京,今年5月正式成立。

目标不止是大模型,而是AGI。

就在11月初,这家公司就发布代码大模型DeepSeek Coder

与之前最好的开源大模型CodeLlama相比,DeepSeek Coder在代码生成任务上(使用标准数据集HumanEval、MBPP和DS-1000进行评测)分别领先了9.3%、10.8%和5.9%。

特别值得一提的是,深度求索其实是从知名私募巨头幻方旗下独立出来的一家公司。

幻方这家公司听起来和AI“八杆子打不着”,但实际上,2019年时,幻方就发布了自研深度学习训练平台“萤火一号”。

据称该项目总投资近2亿元,共搭载了1100块GPU。

后来“萤火一号”由升级为“二号”,搭载的GPU数则达到了约1万张

参考链接:
[1]
https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ
[2]https://twitter.com/johannes_hage/status/1730075189428494842
[3]https://twitter.com/jeremyphoward/status/1730113946345205970
[4]https://twitter.com/bindureddy/status/1730248977499762740
[5]https://zhuanlan.zhihu.com/p/636451367

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑|开源免费突然宣布停刊!迪丽热巴、白敬亭、魏大勋曾担任模特,背后公司已启动上市辅导古交在春风中苏醒(上)腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型自购、加仓!私募巨头,出手了上海AI实验室开源科学大模型,理科能力全线提升,免费商用免费《大模型应用实践》实训营第二周课程来啦!这次百度算法工程师团队手把手教你构建大模型应用,另有第一周干货回顾!注意!奥巴马医保申请即将开放,这部分人可免交保费!国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B红色日记 军(工)宣队 4.21-26国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维最新千亿大模型免费商用:1026亿参数,无需授权!诚邀开发者共同训练免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!性能全面超越LLaMA2,0门槛商用,这个国产大模型要改变开源竞争格局了航空公司也造车?吉祥汽车首款车型亮相!国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练深航发布最新国际及地区航班计划!厦门航空发布最新国际及地区航班计划!南航发布最新国际及地区新增航班计划新加坡坐拥16家独角兽企业!排名第一的公司来自中国估值高达660亿美元幻方量化开源国内首个MoE大模型,全新架构、免费商用小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大国产算力和国产大模型,迎来双赢时刻AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相2024年或成国产大模型应用爆发年!有道再推多款大模型产品及应用元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题被历史的演进湮没了的希腊科学偷鸡摸狗---暗搞台独最好的7B模型易主,笔记本轻松跑,免费开源可商用,来自“欧洲的OpenAI”墨尔本电车将迎重大升级!最新车型亮像,将投入$18.5亿造100辆中国“X”老板VS.日本“X”逸翁知名私募巨头紧急声明!私募巨头|KKR 开放2024校招申请,23/24届本科可投苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。