Redian新闻
>
Grok 开源和 MM1 论文透露了哪些关键数据?

Grok 开源和 MM1 论文透露了哪些关键数据?

公众号新闻

专题解读

事件:

马斯克在近期宣布 xAI 开源 Grok-1 模型,苹果团队则首次公布了在多模态基础模型的进展MM1。

马斯克旗下 xAI 如约宣布开源其混合专家模型「Grok-1」,3140 亿的参数让 Grok-1 成为了当前参数量最大的开源大语言模型,开放的许多数据细节引起了社区极大关注。

就在 Grok-1 开源几天前,苹果团队在库克有关实现 GenAI 领域重大进展的预告后也发布了 300 亿参数的 MM1 多模态大语言模型,论文中还分享了他们总结的模型设计准则。


Grok 开源和 MM1 论文透露了哪些关键数据?

1、根据 xAI 的博客,Grok-1 开源的内容包括模型的详细架构设计,如层数、每层的类型和参数数量等,其预训练权重也被开源,允许用户直接运行模型或将其用于迁移学习。

① Grok-1 基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调;

② Grok-1 是 3140 亿参数的 MoE 模型,在给定 token 上的激活权重为 25%;

③ 模型由 xAI 团队从 2023 年 10 月开始,使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。

④ xAI 没有公开 Grok-1 的训练数据。

⑤ 知名机器学习研究者 Sebastian Raschka 评价称:「Grok-1 比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如 Pythia、Bloom 和 OLMo,后者附带训练代码和可复现的数据集。」

2、苹果团队在 MM1 的论文中探讨了不同架构组件和数据选择的重要性,并通过对图像编码器、视觉语言连接器和各种预训练数据的选择总结了几项关键设计原则。

① 建模设计方面的重要性按以下顺序排列:图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。

② 研究者使用三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,当涉及少样本和纯文本性能时,交错和纯文本训练数据非常重要,而对于零样本性能,字幕数据最重要。

③ 该工作训练的 MM1 大型多模态模型含 3B、7B、30B 三个版本,在预训练指标中实现 SOTA,并在多个基准测试中表现出竞争性能。


表:Grok-1 与 MM1 公开信息对比


除了博客的三言两语,Grok-1 的架构细节还透露了什么数据?

1、推特用户@itsandrewgao  Grok-1 模型的架构细节进行了总结。

① Grok-1 是一个混合专家(MoE)模型,包含 8 个专家网络,但在推理时活跃的只有 2 个。

② Grok-1 有 860 亿激活参数,大于 Llama-2 的 70B 版本。

③ Grok-1 包含 64 个 Transformer 层,每层都包含一个解码器层,由多头注意力块和密集块组成。

④ 多头注意力块中有 48 个头用于查询(queries),8 个头用于键(keys)和值(values),键值对的大小为 128。

⑤ Tokenizer 的词汇表大小为 131,072,类似于 GPT-4。

⑥ 嵌入层的大小为 6,144(48 * 128),这意味着每个 token 的嵌入向量大小为 6,144。

⑦ 前馈网络(Feed-Forward Block)的加宽因子为 8,隐藏层大小为 32,768。

⑧ 模型能够处理的上下文长度为 8,192 个 tokens。

⑨ 模型的精度为 bfloat16(一种数值精度格式,介于 float32 和 float16 之间)。

2、xAI 在项目说明中强调,由于 Grok-1 是一个规模较大(314B 参数)的模型,因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。

① 网友评估了 314B 参数的 Grok-1 可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)才能运行,大概需要 8 块 H100GPU。

② 同样有网友表示模型训练需要的算力远不止如此,即便 xAI 开源了训练数据,有能力复现的机构也很有限....



苹果团队的 MM1 重点在于数据配方?MM1 找到了最佳数据配方?Grok-1 和 MM1 终将走向端侧吗?... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 12
本期完整版通讯含 3 个专题解读 +  31 项 AI & Robotics 赛道要事收录
 1. 从 GitHub Copilot 到独立 AI 开发者:「Devin 们」 还有多长的路要走?
AI 软件工程师 Devin 与 AutoDev 相比传统的 AI 编程助手具备哪些特殊的能力?实际使用效果如何?有没有「吹水」?距离替代人类程序员,还差哪些技术?...
 2. Grok 开源和 MM1 论文透露了哪些关键数据?
Grok-1 有哪些巧思?谁都能复刻 Grok-1 了吗?MM1 找到了最佳数据配方?Grok-1 和 MM1 终将走向端侧吗?...

3.a16z 最新 GenAI  Top100 报告要点解读

新报告和上一版有和差异?GenAI 市场有和变化?有哪些新上榜的GenAI应用?报告发现了哪些趋势变化?...



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美股基本面 - 2024_01_24 * 晨报 * Getaround盘前暴涨60% 获2千万美元AI进化太快了,马斯克开源Grok-1,爆火!提前锁定全美Top2文理学院RD录取,他做对了哪些关键决策?OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期吃饭不健康,癌症风险可能更高!《细胞》发现糖代谢致癌新机制;弱智吧竟成最佳中文AI训练数据?测试远超知乎豆瓣小红书|本周论文推荐刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源马斯克开源Grok-1,OpenAI如何应对?|【经纬低调分享】深度 | 多次访华的斯里兰卡总理,透露了哪一些关键信息?重磅消息!两项关键数据全部转好!影响所有新西兰华人!NZ将迎重要变化,一起来见证!复活节,美国哪些商店开门哪些关门英雄难过美人关习总说,上海人“不粘人”;其实,上海,不粘中国特斯拉最新发布!透露这些关键信息……被诅咒的2023马斯克正式开源 Grok-1,成为全球最大的开源大模型马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?生命科学工具散点爆发中,除了技术还有哪些关键因素?我们与英赛斯创始人聊了聊 |【经纬低调推公司】开源日报 | Grok使用体验完全够不上第一梯队;C++之父反驳白宫观点;Surface Duo在开源社区扶持下焕发新生开源11天,马斯克再发Grok-1.5!128K代码击败GPT-4降息时机再生变?12月关键数据出炉,通胀进一步降温30、长篇家庭伦理小说《嫁接》第七章 非法打工 (4)马斯克如约开源 Grok,10 小时狂揽10000颗Star特斯拉全系降价后与小米 SU7 差价仅 1.6 万/ Apple Watch X 渲染图曝光/周鸿祎称开源和闭源没必要相互贬低马斯克宣布正式开源大语言模型Grok;人体避免多个精子使一个卵子受精的机制揭示 | 环球科学要闻GPT-4级模型Grok开源可商用!卷底层大模型的公司危了P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目黄仁勋扔出的算力核弹​是堆叠吗?马斯克开源的大模型Grok才是全球最大吗?新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍说到做到,马斯克开源Grok,3140亿参数免费可商用许家印组织造假被罚4700万;马斯克开源大模型Grok-1;侯毅正式卸任盒马CEO;英伟达推出最强AI芯片...最新!中国公布多项免签落地签新政,需要注意哪些关键点?AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。