Redian新闻
>
说到做到,马斯克开源Grok,3140亿参数免费可商用

说到做到,马斯克开源Grok,3140亿参数免费可商用

公众号新闻

更多公司加入开源阵营,试图瓦解OpenAI构建起的技术围墙。


武静静
编辑邓咏仪

封面来源Grok

炮轰OpenAI闭源,甚至与OpenAI对簿公堂的马斯克,说到做到,真的把自家的Grok开源了。

经历了一周的造势,当地时间3月17日,Grok-1开源版本如约而至。从参数来看,Grok-1是目前参数量最大的开源大语言大模型之一,其参数规模达到了3140亿,超过GPT-3.5当时1750亿的参数量。

目前Grok没有语言之外的其他能力,但xAI称,计划未来将Grok打造成多模态的大模型

从ChatGPT发布后,马斯克就站在OpenAI对立面,成为排头兵,xAI也是为此而成立。不少人对Grok-1报以期待,想迫不及待试试。


好于GPT-3.5可商用,但难以迭代

xAI是马斯克2023年创立的大模型公司,其设计初衷是模仿科幻小说《银河系漫游指南》,提供尖锐的回复。目前Grok技术已集成到社交媒体平台X中,可以根据用户的帖子进行回复,订阅X高级功能的用户可以直接向Grok提问。

从整体测试效果来看,这次开源的Grok-1可以说“比上不足,比下有余”——在各个测试集中呈现的效果要比GPT-3.5、“70b的LLAMA2”和Inflection-1要好,但距离Claude2和GPT-4仍然差了一大截。

不过,由于Grok-1是xAI从零开始训练,在2023年10月就已经结束了预训练,且没有针对任何特定应用(如对话)进行微调,所以目前无法直接体验到对话的应用。

在社交媒体上,有人评论称,Grok-1没有对特定任务进行微调,提高了用户使用它的门槛,“市场需要特定的工具,而不是通用的人工智能。”

也有人认为,Grok-1这种方式可以适应多种不同的任务和应用场景,更适合那些想要用开源模型打造自己专有模型的开发者。

技术架构上,和GPT-4一样,Grok-1采用了大规模参数的专家混合模型(Mixture-of-Experts,MoE)架构,可以将大型网络分解为多个“专家”子模块,每个子模块负责处理不同类型的信息或任务。

底层技术上,Grok-1选择使用了基于JAX(一个由Google开发的用于高性能机器学习研究的库)和Rust(一种注重安全性和并发的系统编程语言)的自定义训练堆栈。

这并不是大型语言模型中常见的选择。大多数知名的大模型比如OpenAI的GPT系列或Google的大模型通常是基于TensorFlow或PyTorch这样的主流深度学习框架开发的,且有丰富的API和社区支持,能让模型开发和训练变得更高效。

但Grok-1将JAX和Rust的结合,优势在于能够在模型性能、效率和可伸缩性方面有所优化。但这也意味着,xAI可能需要投入更多的资源来维护和支持这种非主流的技术栈。

效率上,Grok-1模型也找到了更高效训练的方法。在Grok-1模型中,只有大约25%的权重在任何给定时刻是”活跃”的,可以把“权重”理解为参与信息处理的“工具”,这种“活性权重”可以减少不必要的计算,提高处理速度,同时也减少了冗余。

此外,Grok-1的权重和架构是在宽松的Apache 2.0许可下发布的,这使得研究者和开发者可以自由地使用、修改和分发模型,打开了更多开放合作和创新的可能性。

眼下,Grok-1面临的最迫切问题是模型参数太大(3140亿),这需要巨大的计算资源,所以开源社区无法对Grok-1进行迭代。

不过,目前,对话搜索引擎公司Perplexity CEO Aravind Srinivas已经在社交媒体上发文称,将会基于Grok的基础模型,进行对话式搜索和推理的微调。


OpenAI对立面:不断壮大的开源力量

Grok-1的开源也意味着马斯克已经选边站,站在开源这一头,身体力行的参与对抗OpenAI。

也有人认为,这是马斯克搞的又一次营销噱头。“一家营利性公司开源的东西往往表明它还不够好。

但不论动机如何,马斯克此次确实给开源力量增加了有分量的筹码。

一直以来,开源和闭源的争议从未停止。市场争议主要集中在两端,OpenAI认为闭源能够让技术更安全的被使用,避免技术滥用;开源一方则认为技术不应该掌握在某家公司手中,需要更透明、更公开。几天前,苹果发布的多模态大模型MM1,也提到要致力于让技术更透明化。

用更直白的话来说,面对一骑绝尘的的OpenAI,模型层闭源的意义可能并不大,不如开放给社区一起迭代。因此,开源成为更多公司“团结起来”的选择。

一个典型例子是,Sora大火之后,中国创业公司潞晨科技团队就火速自研,推出了开源全球首个类Sora架构视频生成模型“Open-Sora 1.0”,该模型包括整个训练流程,包括数据处理、所有训练细节和模型权重。

目前开源力量最大的参与方是Meta,也成为了AI开源社区中的“一面旗帜”,2023年7月,Meta发布了免费可商用版本大模型Llama 2。最近,已经有不少媒体报道称,Meta正在加紧开发新的大语言模型,预计在今年推出能力对标GPT-4的开源大模型。马克·扎克伯格此前还公开透露,会在2024年底前购买约35万张英伟达最先进的H100 AI GPU。

另一个有竞争力的公司是法国生成式AI独角兽Mistral AI,今年2月,Mistral AI发布全新旗舰模型Mistral Large。Mistral Large在基础测试中的表现出色,以81.2%的分数超越了谷歌Gemini Pro、GPT-3.5、Meta Llama 2-70B三款模型。成为仅次于GPT-4、世界第二大可通过API访问的AI大模型。

更多公司正在加速参与到大模型开源中,试图瓦解OpenAI闭源路线构建起的技术围墙。

独家、深度、前瞻,为1%的人捕捉商业先机

36氪旗下精选公众号

👇 真诚推荐你来关注 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
马斯克如约开源 Grok,10 小时狂揽10000颗StarP70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4天工3.0正式开放!4000亿参数MoE开源,开启音乐生成ChatGPT时刻全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用出走4:省亲知家族旧事,堂哥是亲哥,派出所偶遇珈珈,人妻成人母。全球最强开源模型一夜易主,1320亿参数推理飙升2倍开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源双林奇案录第三部之天使刺客: 第十八节黄仁勋扔出的算力核弹​是堆叠吗?马斯克开源的大模型Grok才是全球最大吗?马斯克正式开源 Grok-1,成为全球最大的开源大模型国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑马斯克开源Grok-1,OpenAI如何应对?|【经纬低调分享】GPT-4级模型Grok开源可商用!卷底层大模型的公司危了新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍公布秘密邮件、指控OpenAI沦为微软子公司…马斯克状告奥特曼,要求开源GPT-4!伊朗报复说到做到,美以会否将世界拖入死亡螺旋?最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上美股基本面 - 2024_01_20 * 午报 * 消息称黄仁勋到访北上深办公室并给员工抽奖 英伟刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型AI进化太快了,马斯克开源Grok-1,爆火!裁员这剂猛药,马斯克开错了?OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星刚刚,马斯克突然发布 Grok 1.5 大模型,但除了这点都不如 GPT-4许家印组织造假被罚4700万;马斯克开源大模型Grok-1;侯毅正式卸任盒马CEO;英伟达推出最强AI芯片...扶江郎 (微型小说)巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024出走3:湖边倾谈,知识分子转向,摆摊遭遇小偷,醒来看到许美慧,画画疗伤开源11天,马斯克再发Grok-1.5!128K代码击败GPT-4马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?全球最强开源模型一夜易主,1320亿参数推理飙升2倍!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。