Redian新闻
>
马斯克发布Grok 1.5! 编码和数学能力大幅提升

马斯克发布Grok 1.5! 编码和数学能力大幅提升

公众号新闻
 夕小瑶科技说 分享
 来源 | 量子位

就在刚刚,马斯克Grok大模型宣布重大升级。

难怪之前突然开源了Grok-1,因为他有更强的Grok-1.5了,主打推理能力。

来自xAI的官方推送啥也没说,直接甩链接。主打一个“字少事大”图片

▲image

新版本Grok有啥突破?

一是上下文长度飙升,从8192增长到128k,和GPT-4齐平。

二是推理性能大幅提升,数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4

消息一出,评论区立刻就躁起来了。

具体跑分结果如何,咱们立马来看。

Grok-1.5来了

首先,对于上下文窗口。

这次是一把直接提升到之前的16倍,来到128k量级。

这也就意味着Grok可以处理更长和更复杂的提示,同时保持其遵循指令的能力。

在“大海捞针”(NIAH)测试中,Grok-1.5在128K token的上下文中完美检索嵌入的文本。

整个图一水儿的蓝色(100%的检索深度):

其次,推理方面。

Grok-1.5处理编程和数学相关任务的能力大幅提升,全面超越Grok-1、Mistral Large、Claude 2。

数学方面,Grok-1.5在MATH基准测试上得分50.6%,超越中杯Claude 3 Sonnet;GSM8K上得分90%。

编程方面,Grok-1.5在HumanEval基准测试上得分74.1%,超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4,仅次于大杯Claude 3 Opus。

看起来,Grok这次的实力也是不可小觑。

Grok系列与其他大模型相比还有一个特色,不使用通用的Python语言+Pytorch框架。

据官方介绍,Grok 1.5采用分布式训练架构,使用Rust、JAX+Kubernetes构建。

为了提高训练可靠性和维持正常运行时间,团队提出了自定义训练协调器,可自动检测到有问题的节点,然后剔除。

除此之外,他们还优化了checkpointing、数据加载和训练重启等流程,最大限度地减少故障停机时间。

这,才速速有了现在的Grok 1.5~

更多信息官方也暂时还没有披露。

可以确定的是,新版本未来几天会先推送给早期测试者。并按照“老规矩”,很快将在𝕏平台上线。

▲image

网友们表示:Grok进步真的相当迅速。

▲image

不提别的,Grok新版本各指标已经全面超越Claude 2。而xAI成立仅一年,只比Anthropic落后9个月。因此:

打赌12个月后,xAI完全有可能成为领导者。

还有人评价更高,认为马斯克这是发了另一个“GPT-4等效模型”,喊着:

OpenAI搞快点啊。

你期待新版本的Grok吗?

参考资料

[1] https://twitter.com/xai/status/1773510159740063860
[2] https://x.ai/blog/grok-1.5

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath《华裔副总裁(第二部):突围》第五节:“耻感”扶桑AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?美国移民局处理申请效率大幅提升,全线审理周期缩短FSD v12.3好评不断;马斯克:v12.4能力将再度大幅提升,算力限制已大幅改善AI早知道|OpenAI将推出基于GPTs使用量的分成机制;X AI 发布Grok-1.5歪着斧子“侃侃”老OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折华人老板喜讯:纽约新规严打千元盗窃,安全感大幅提升马斯克发布全球最大开源模型Grok-1今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?看“单亲妈”系列有感,家有儿女的必读40、长篇家庭伦理小说《嫁接》第十章 不期而遇(1)宇宙人(1489期)聂海胜出席中国航天大会;文心一言数学能力与Claude-3并列第一;英伟达黄仁勋称人形机器人未来将成主流实施时间将提前!加勒比4国投资移民门槛大幅提升,立法或在本月底完成!童年故事(37):请君入瓮刚刚,马斯克突然发布 Grok 1.5 大模型,但除了这点都不如 GPT-4马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文开源11天,马斯克再发Grok-1.5!128K代码击败GPT-4奖金十万美元!寻找数学能力最强大模型ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量东软教育:业务稳健增长、派息大幅提升,股价拐点将至AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用最后5个月!希腊黄金签证再变政,购房投资门槛大幅提升!澳大学毕业生就业恢复疫情前荣景!前三年薪资大幅提升钢铁直男马斯克发文力挺TikTok:禁止TikTok将违背言论和表达自由马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!【兑换伙伴再次大幅贬值】美联航UA大幅提高兑换星盟伙伴所需点数ICLR 2024 | 微软提出全新LLM剪枝方法:参数减少25%,大幅提升计算效率Higress 全新 Wasm 运行时,性能大幅提升小红书迎来新社区内容负责人;文心一言数学能力与Claude-3并列第一;买“加速包”可优先购票?12306回应:无效……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。