马斯克正式开源 Grok-1，成为全球最大的开源大模型

2024-03-18 04:03

今日凌晨，在一片质疑声中，信守承诺的马斯克卡在最后一日正式开源了 GroK。

好消息是，马斯克开源了 Grok 1.0 的完整代码，坏消息是，关于模型完整的训练过程和细节却是一点也没透露，这就好比给你一本详尽的教科书让你自学成才。

另外，藏着掖着的 Grok 1.5 也没有发布，相信届时会给我们带来一波大惊喜。

本次开源的 Grok 1.0 是拥有 314B 参数的先进混合专家模型，也是截至目前参数量最大的开源大型语言模型，其规模相当于 Meta LlaMA 2 70B 的 4.4 倍。

模型是由 xAI 团队利用定制的训练技术栈，在 JAX 和 Rust 的基础上从零开始构建的，包含了 Grok 1.0 在 2023 年 10 月完成预训练阶段时的基础模型数据。

这也意味着该模型尚未对任何特定应用（如对话系统）进行微调，所以在处理特定任务时的表现甚至不如一些专门为任务微调过的模型。

根据 Apache 2.0 许可协议，现在公众可以自由访问模型的权重和架构。以下是关于 Grok 1.0 的一些关键信息：

模型参数数量高达 314B

混合专家模型(MoE 架构)

每一个数据单元由 2 位专家处理

嵌入向量的维度为 6144

采用旋转式嵌入表示

最大序列长度为 8192 个数据单元，以处理更长的上下文信息

在 MMLU、GSM8K 等一系列的基准测试中，Grok 1 的表现远胜于 LLaMA 2 70B，但和 Claude 2 以及 GPT-4 仍有不小的差距。

Grok 1.0 开源之后，网友用 AI 恶搞了一段扎克伯格揶揄 Grok 开源的视频。

AI 版的扎克伯格调侃道，「Grok 的开源并没有给人留下真正深刻的印象，3140 亿参数太多了，你需要一堆 H100，不过我已经买下了。」

一向爱「套壳」热门模型的 Perplexity AI 创始人，也第一时间在 X 上宣称将对该模型进行微调，以增强其在对话搜索方面的表现，并提供给所有 Pro 用户。

英伟达高级科学家 Jim Fan 则对这个模型展现出了浓厚的兴趣。

网友还发现了一个有趣的细节：xAI 团队似乎为了体现其「理解宇宙」的宏伟理念，特意将模型的参数量设定为与圆周率相关的「314B」。

但也有网友质疑， Grok 的开源更像是一场作秀，并指出 Grok 1.0 在实用性或性能上存在局限，甚至达不到公司商业的产品标准。

马斯克自然不会放过这个贴脸输出的大好机会，对着 ChatGPT APP 官方账号揶揄道，「告诉我们更多关于 OpenAI 的『Open』部分......」

配上网友的玩梗图有种莫名的喜感

OpenAI CEO Sam Altman 则发了一条耐人寻味的推文。

尽管 Grok 1.0 因为庞大的模型体量和对计算资源的高需求而面临诸多局限，使得哪怕是开源社区在实际应用之前，也需要经过复杂的微调和优化过程。

但不可否认的是，Grok 仍然是一个值得铭记的历史性时刻，也是迈向开源 AGI 的重要一步。

附上 xAI 官方博客：https://x.ai/blog/grok-os

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq