Grok 开源和 MM1 论文透露了哪些关键数据？

2024-03-24 03:03

专题解读
事件：
马斯克在近期宣布 xAI 开源 Grok-1 模型，苹果团队则首次公布了在多模态基础模型的进展MM1。

马斯克旗下 xAI 如约宣布开源其混合专家模型「Grok-1」，3140 亿的参数让 Grok-1 成为了当前参数量最大的开源大语言模型，开放的许多数据细节引起了社区极大关注。

就在 Grok-1 开源几天前，苹果团队在库克有关实现 GenAI 领域重大进展的预告后也发布了 300 亿参数的 MM1 多模态大语言模型，论文中还分享了他们总结的模型设计准则。

Grok 开源和 MM1 论文透露了哪些关键数据？

1、根据 xAI 的博客，Grok-1 开源的内容包括模型的详细架构设计，如层数、每层的类型和参数数量等，其预训练权重也被开源，允许用户直接运行模型或将其用于迁移学习。

① Grok-1 基础模型基于大量文本数据进行训练，没有针对任何具体任务进行微调；

② Grok-1 是 3140 亿参数的 MoE 模型，在给定 token 上的激活权重为 25%；

③ 模型由 xAI 团队从 2023 年 10 月开始，使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。

④ xAI 没有公开 Grok-1 的训练数据。

⑤ 知名机器学习研究者 Sebastian Raschka 评价称：「Grok-1 比其他通常带有使用限制的开放权重模型更加开源，但是它的开源程度不如 Pythia、Bloom 和 OLMo，后者附带训练代码和可复现的数据集。」

2、苹果团队在 MM1 的论文中探讨了不同架构组件和数据选择的重要性，并通过对图像编码器、视觉语言连接器和各种预训练数据的选择总结了几项关键设计原则。

① 建模设计方面的重要性按以下顺序排列：图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。

② 研究者使用三种不同类型的预训练数据：图像字幕、交错图像文本和纯文本数据。他们发现，当涉及少样本和纯文本性能时，交错和纯文本训练数据非常重要，而对于零样本性能，字幕数据最重要。

③ 该工作训练的 MM1 大型多模态模型含 3B、7B、30B 三个版本，在预训练指标中实现 SOTA，并在多个基准测试中表现出竞争性能。

表：Grok-1 与 MM1 公开信息对比

除了博客的三言两语，Grok-1 的架构细节还透露了什么数据？

1、推特用户@itsandrewgao Grok-1 模型的架构细节进行了总结。

① Grok-1 是一个混合专家（MoE）模型，包含 8 个专家网络，但在推理时活跃的只有 2 个。

② Grok-1 有 860 亿激活参数，大于 Llama-2 的 70B 版本。

③ Grok-1 包含 64 个 Transformer 层，每层都包含一个解码器层，由多头注意力块和密集块组成。

④ 多头注意力块中有 48 个头用于查询（queries），8 个头用于键（keys）和值（values），键值对的大小为 128。

⑤ Tokenizer 的词汇表大小为 131,072，类似于 GPT-4。

⑥ 嵌入层的大小为 6,144（48 * 128），这意味着每个 token 的嵌入向量大小为 6,144。

⑦ 前馈网络（Feed-Forward Block）的加宽因子为 8，隐藏层大小为 32,768。

⑧ 模型能够处理的上下文长度为 8,192 个 tokens。

⑨ 模型的精度为 bfloat16（一种数值精度格式，介于 float32 和 float16 之间）。

2、xAI 在项目说明中强调，由于 Grok-1 是一个规模较大（314B 参数）的模型，因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。

① 网友评估了 314B 参数的 Grok-1 可能需要一台拥有 628 GB GPU 内存的机器（每个参数 2 字节）才能运行，大概需要 8 块 H100GPU。

② 同样有网友表示模型训练需要的算力远不止如此，即便 xAI 开源了训练数据，有能力复现的机构也很有限....

苹果团队的 MM1 重点在于数据配方？MM1 找到了最佳数据配方？Grok-1 和 MM1 终将走向端侧吗？... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 12

本期完整版通讯含 3 个专题解读 + 31 项 AI & Robotics 赛道要事收录

1. 从 GitHub Copilot 到独立 AI 开发者：「Devin 们」还有多长的路要走？

AI 软件工程师 Devin 与 AutoDev 相比传统的 AI 编程助手具备哪些特殊的能力？实际使用效果如何？有没有「吹水」？距离替代人类程序员，还差哪些技术？...

2. Grok 开源和 MM1 论文透露了哪些关键数据？

Grok-1 有哪些巧思？谁都能复刻 Grok-1 了吗？MM1 找到了最佳数据配方？Grok-1 和 MM1 终将走向端侧吗？...

3.a16z 最新 GenAI Top100 报告要点解读

新报告和上一版有和差异？GenAI 市场有和变化？有哪些新上榜的GenAI应用？报告发现了哪些趋势变化？...

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq