Redian新闻
>
谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用

谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌大模型,开源了!

一夜之间,Gemma系列正式上线,全面对外开放。

它采用Gemini同款技术架构,主打开源和轻量级,免费可用、模型权重开源、允许商用,同时笔记本可跑

共有2B和7B两个版本,性能全面超越开源标杆Llama 2。

每种规模都有预训练和指令微调版本,可在Kaggle、Colab Notebook、Google Cloud中访问。

而且支持JAX、PyTorch和TensorFlow通过原生Keras 3.0进行推理和监督式微调(SFT),适应多种开发需求和环境。得益于对JAX的支持,它还能进行快速推理。

目前模型也同步上线Hugging Chat,可在线体验试玩。

发布几个小时里,Gemma火速成为圈内最热话题,成为议论焦点。

Keras作者François Chollet高呼:最强开源大模型,刚刚易主。

大神卡帕西第一时间赶来解析技术报告。

AI圈内大佬更是表示,谷歌做开源是明智之举啊。

网友们都很兴奋,已经有人开始问考虑推出更多语言版本吗?

还有人提出2B的规模,是不是意味着也能支持安卓/iOS本地推理?

多性能超越同规模开源模型

具体来看Gemma的技术报告。

在18个任务中,Gemma在11个任务上表现优于同规模优质开源模型。

Gemma包含两种规格。

7B版本参数量约78亿,面向GPU和TPU上的高效部署和开发,2B版本参数量约25亿,用于CPU和端侧应用程序。

它基于Transformer解码器架构,关键模型参数如下。


相比于基础Transformer,Gemma进行了一些升级。

7B版本使用多头注意力机制,2B版本使用多查询注意力机制。

在每一层中使用旋转位置嵌入代替绝对位置嵌入;使用GeGLU激活函数替代标准ReLU非线性。

同时对每一个子层的输入和输出都进行归一化。

Gemma 2B/7B分别使用了2T和6T token进行训练,主要来自网络文档、数学和代码,不过这些数据不是多模态的。

为了兼容,谷歌使用了Gemini的SentencePiece tokenizer子集,它可以分割数字,不删除额外的空格,并对未知token进行字节级编码。

大神卡帕西关注了Tokenizer部分,他表示,Gemma的tokenizer和Llama 2的不同,但和GPT一致。

François Chollet认为Gemma最大的特点是谷歌拥有SOTA级测试集过滤机制,这意味着基准数据能相当准确地反映了模型在实际环境中的表现。

谷歌也报告了Gemma在MMLU等基准上的表现。

最后,谷歌还强调了Gemma的安全隐私性能。

实验数据显示Gemma不会存储敏感数据,但可能会记住一些潜在隐私数据。不过报告表示这个数据可能因为工具原因有所误报。

网友已开始实测

开放以后不少网友已经上手实测Gemma。

有人反馈写代码的速度非常快。

关于技术细节的讨论也很多。

不少人关注到Gemma做到了“以小博大”,2B版本性能超越Mistral2 7B。

也有人觉得Gemma使用的数据量有点大……

但对于谷歌开放模型的态度,大家是一律拍手称赞。

通过几十个开源项目,每个人都有机会打败巨头。

现在压力再次给到“CloseAI”……

也有人猜测,按照两大巨头互掐的规律,OpenAI新大招可能就在路上了。

参考链接:
[1]
https://ai.google.dev/gemma
[2]https://x.com/Jason/status/1760331908762751330?s=20
[3]https://twitter.com/karpathy/status/1760350892317098371

报名中!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选

评选报名截至2024年3月31日 

中国AIGC产业峰会同步火热筹备中,了解更多请戳:在这里,看见生成式AI的应用未来!中国AIGC产业峰会来啦!

商务合作请联络微信:18600164356 徐峰

活动合作请联络微信:18801103170 王琳玉


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
说到做到,马斯克开源Grok,3140亿参数免费可商用扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切航空公司也造车?吉祥汽车首款车型亮相!全球最强开源模型一夜易主,1320亿参数推理飙升2倍!骁龙最强AI芯能力下放:小旗舰8s发布,端侧运行10B大模型,小米Civi首发千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024李彦宏:开源大模型不如闭源,后者会持续领先;周鸿祎:“开源不如闭源” 的言论是胡说八道关于朱令铊中毒的一点讨论许家印组织造假被罚4700万;马斯克开源大模型Grok-1;侯毅正式卸任盒马CEO;英伟达推出最强AI芯片...最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!开源大模型火了!(附99个大模型微调模型/数据/工具)!周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA张核子回应张姗姗身份;雷军直播回应造车亏损;Meta发布最强开源大模型Llama 3;阿里拍卖回应前员工指控高管职场霸凌|邦早报被Sora抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型Gemma史上最强开源大模型 Llama 3正式发布。。。为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用Google发布最强开源大模型Gemma/苹果OLED产品路线图曝光/小米汽车价格定了?高管辟谣Stability AI开年首个大模型:专写代码,支持18种编程语言,上下文100K,苹果笔记本离线就能跑两首《万家灯火》卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了被 Sora 抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型 Gemma嫉妒的心灵不美丽GPT-4级模型Grok开源可商用!卷底层大模型的公司危了无需训练实现价值观实时动态对齐:上交开源价值观对齐方法,闭源与开源大模型均适用马斯克正式开源 Grok-1,成为全球最大的开源大模型《再见,布里诺斯艾利斯》最强开源多模态生成模型MM-Interleaved:首创特征同步器最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接2023虽然过的不尽人意但是也要总结一下!华为 Pura 70 系列上架即售罄/Meta 发布全球最强开源大模型/理想汽车 L6 发布无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。