刚刚！马斯克开源 Grok：参数量近 Llama 四倍，成全球最大开源模型

科技

2024-03-18 05:03

作者 | 冬梅、褚杏娟

本周一，马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok，这也兑现了他上周的开源承诺。截至目前，Grok 已经在 GitHub 上获得了 4.3k 颗 Star。

开源地址：https://github.com/xai-org/grok-1

Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型，其中 25% 的权重来处理给定的标记。xAI 这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构，使用了 Apache-2.0 许可证。

根据介绍，Grok 的架构是在 2023 年 10 月使用自定义训练堆栈在 JAX 和 Rust 上开发的，采用了创新的神经网络设计方法。

“该版本是 Grok-1 预训练阶段的原始基本模型检查点，该阶段于 2023 年 10 月宣告结束。

这意味着该模型并未针对任何一种特定的应用（比如对话和交谈）进行了微调。”xAI 在博文里说道。

Andrew Kean Gao 总结了 Grok-1 的模型情况如下：

此外，他还将 Grok-1 与其他开源模型参数量进行了对比，Grok-1 是 Llama-65B 的 4 倍多。

相比之下，OpenAI 提供了 ChatGPT 的一个版本及其背后的语言模型供免费使用，但其源代码却是闭源的。

对此，英伟达高级科学家 Jim Fan 评价称，（这是）有史以来最大的开源大模型，由世界一流的团队训练。“我想知道被 Grok 超越是什么感觉。”“314B、混合专家 (2 / 8 有效)。即使仅活动参数 (86B) 就超过了最大的 Llama。迫不及待地想看到基准测试结果以及人们用它构建的东西。”另外，他还做了一下修正：Google 传统型号的switch transformer 为 1.6T，目前保持着公开记录。

但网友 Quintus 对马斯克开源 Grok 持怀疑态度，他认为“一家营利性公司开源某些东西通常表明它不足以作为产品出售。到目前为止，从“有趣模式”到营销噱头，与 Grok 相关的一切似乎都是表演性的。作为一个功能模型，它并不严肃。”

对此，有网友回复称：“还是比什么都没有好。训练这种规模的模型并不是免费的，这对研究很有用。”

看不惯 OpenAI 闭源？

马斯克去年在英国人工智能安全峰会上表示，他希望建立一个 “第三方裁判”，可以监督人工智能开发公司，并在他们有疑虑时发出警报。

为了寻求 OpenAI 和谷歌的替代方案，马斯克去年推出了 xAI，以创造他所说的“最大程度寻求真相的人工智能”。

前不久，马斯克对 OpenAI 采取了法律行动，指责该公司违反合同并忘记了最初的使命。马斯克向旧金山法院提起了诉讼，他在诉讼中表示，OpenAI 与微软的合作破坏了该公司最初致力于开发公共和开源通用人工智能的承诺。

之后，马斯克发布推文表示，如果 OpenAI 改名 ClosedAI 自己就会撤诉。有网友对此嘲讽道：“那你为什么不将 Grok 开源呢？”没想到几天后，马斯克真的宣布要将 Grok 开源。

据 xAI 称，它由 Grok-1 提供支持，Grok-1 是一种大型语言模型，其大小与 Meta 的 Llama 2 70B 参数模型和 OpenAI 的 GPT-3.5 相当。

截图来源：《Announcing Grok》

去年 12 月，这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。但马斯克此前很少谈论 Grok 或 xAI 的商业模式。本月早些时候，马斯克指责 OpenAI 联合创始人违背了其最初的使命，转而采用营利性模式。因此，不少人猜测马斯克或许是认为必须开源自己的聊天机器人，才能向外界证明他确确实实致力于实现这一愿景，而非像 OpenAI 和外界揣测的他出于嫉妒或者懊悔才起诉 OpenAI。

当马斯克首次宣布 Grok 正在开发中时，他承诺它将比 ChatGPT 或其他人工智能模型有更少的政治偏见。随后，外媒《连线》和其他公司对 Grok 进行了测试，结果表明，尽管 Grok 的回答会有些挑衅，但它并没有以某种方式存在很大的偏见。

也有专家认为，马斯克此前起诉 OpenAI 也可能是为了此次开源 Grok 造势，这样做能为 Grok 带来更多关注。

开源 Grok，能为马斯克带来什么？

开源 Grok 可以帮助马斯克激发人们对其公司人工智能的兴趣。将 Grok 限制为仅 X（较小的全球社交平台之一）的付费订阅者的访问，意味着它尚未具有 OpenAI 的 ChatGPT 或 Google 的 Gemini 的吸引力。发布 Grok 可以吸引开发人员使用该模型并在此基础上进行构建，并最终可能帮助它接触到更多的终端用户。这可以为 xAI 提供可用于改进其技术的数据。

马斯克开源 Grok 的举动表明他与 Meta 的生成人工智能方法保持一致。Meta 的开源模型，如 Llama 2，已经在开发人员中流行起来，因为它们可以完全定制并适应不同的用途。但采用类似的策略可能会让马斯克进一步陷入一场日益激烈的争论，争论的焦点是让任何人都能使用最强大的人工智能模型的好处和风险。

许多人工智能专家认为，开源人工智能模型具有显著的好处，例如提高透明度和扩大访问范围。Stability AI 的创始人 Emad Mostaque 表示：“开源模型更安全、更稳健，很高兴看到该领域领先公司提供更多选择。” Stability AI 是一家构建各种开源 AI 模型的公司。

康奈尔大学博士后研究员戴维·格雷·维德 (David Gray Widder) 表示，马斯克决定开源 Grok，表明科技巨头们正在开始试图利用开放性在生成式人工智能竞赛中取得领先。

维德说：“这些科技公司利用开放性来主张或支持他们的首选立场。”他补充说，开放也是一种广告机制。

例如，Meta 展示了 Llama 2 开源如何帮助外部开发人员构建与 Meta 内部系统兼容的技术。

维德表示，就 xAI 而言，它应该有助于它在 AIGC 市场获得更多吸引力。

“马斯克并不是为了慈善而做这件事，”他说。“他想赚钱。”

然而，大量人工智能研究人员认为，随着人工智能变得更加强大，可能有必要限制对某些模型的访问。除了担心未来的人工智能模型可能变得不守规矩、具有欺骗性、难以控制之外，一些专家还表示，即使是今天的模型也可能有助于产生危险的虚假信息或生产化学或生物武器。

学术界和工业界研究人员上个月发布的一篇研究论文审查了人工智能模型的不同风险评估，得出的结论是，这种担忧可能为时过早。研究人员表示，目前还不存在可靠且系统的方法来衡量人工智能模型带来的危险。

论文地址：https://crfm.stanford.edu/open-fms/paper.pdf

尽管 xAI 是一个比 OpenAI 年轻得多、规模较小的人工智能项目，但鉴于马斯克拥有大量资源，Grok 有潜力成为未来非常强大的人工智能模型。此次 Grok 向全世界开源后，外部人工智能专家都将能够测试它的能力。

Eric Hartford 是一名致力于开源 AI 模式的开发人员，他表示很高兴能够接触到 Grok。“我会在发布时对其进行微调，”他说，指的是用于使人工智能模型适应特定用例的过程。他可能不是唯一一个急于要研究 Grok 的人。

马斯克吹过的“牛”，

兑现了一个又一个

去年 3 月份，马斯克在 X 上宣布开源 Twitter 部分源代码，而在此前，马斯克曾多次表示将开源 Twitter 算法。

2022 年 3 月，马斯克曾在 Twitter 发起一项调查，询问用户对该平台算法开源的看法。他写到：“我担心 Twitter 算法中实际存在的偏见会产生重大影响，我们怎么知道背后到底发生了什么？”马斯克认为，我们对 Twitter 这个公共平台的信任程度越高，文明的风险就越小。同年 10 月，接管 Twitter 后，马斯克关于开源 Twitter 算法的想法也没有发生改变。

2023 年 2 月 21 日，马斯克称将于下周对 Twitter 算法进行开源。当时一位 Twitter 用户表示，如果 Twitter 能够开源算法，他们将会“真心折服”。马斯克回应道：“当我们下周开源算法时，一开始请做好失望的准备，但之后将会快速改善。”

不过遗憾的是，当时马斯克并未兑现“下周开源”的承诺。直到 3 月 18 日，马斯克再次发声：“Twitter 将于 3 月 31 日开源所有用于推文推荐的代码。”

最终马斯克没有食言，在 3 月 31 日开源了 Twitter 算法。

也就是说，无论是今年的 Grok 还是去年的 Twitter 算法，马斯克自己吹过的“牛”又兑现了。

参考链接：

https://www.wired.com/story/elon-musk-no-choice-open-chatbot-grok/

https://x.ai/blog/grok-os

今日好文推荐

我在技术面试中用 ChatGPT 作弊，没人知道

零一万物刷榜，Zilliz 呛声：面向投资人编程；李彦宏称“程序员将会消失”，周鸿祎回怼；TikTok 危在旦夕 | Q资讯

敲了17年代码，我现在连个面试机会都得不到

“微软已经沦落为 OpenAI 的一个 IT 部门”！资源倾斜引发微软内部员工不满、高管离职

活动推荐

技术的世界，从来不是孤独的。在这个充满挑战与机遇的领域，没有闭关修炼多年的绝世高手，只有无数怀着愚公移山精神的探索者，他们一步一个脚印，在未知的荒原上修桥补路，共同编织着技术的传奇。

为了让更多开发者吸取实战经验，滴滴技术公众号特别推出《滴滴技术实践 2023 年度合集》，本册合集汇聚了过去一年滴滴技术公众号所发表的技术实践内容。基于此，你将了解滴滴如何运用算法优化决策，如何通过数据挖掘价值，如何使用测试保证质量，以及如何打造高效、灵活的前后端技术支撑体系等等。这些实践经验不仅贴近业务实际需求，更具有广泛的适用性和参考价值。

如果你对本册合集感兴趣，欢迎点击【阅读原文】或扫码获取！👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章