Redian新闻
>
火了半年整天吊打别人的GPT-4,今天碰到个头铁的被吊打, 谷歌发布史上最强大模型Gemini

火了半年整天吊打别人的GPT-4,今天碰到个头铁的被吊打, 谷歌发布史上最强大模型Gemini

公众号新闻

上半年,科技圈最火的莫过于GPT-4了,整个科技圈加起来都被组团吊打。


出来混,总是要还的,头更铁的来了,传闻中的谷歌杀手锏Gemini,来了!

就在刚刚,谷歌CEO皮猜和哈萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。



标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。

具体来说,此次谷歌一共带来了Gemini的三个版本:


  • Gemini Ultra:谷歌最大、最强模型,适用于高度复杂的任务

  • Gemini Pro:可扩展至各种任务的Gemini模型

  • Gemini Nano:适用于端侧设备的高效Gemini版本(1.8B/3.25B)


其中Gemini Ultra一上来就在32个基准测试中拿下30个SOTA,并且第一个在MMLU基准上达到人类专家水平

而Gemini Pro从今天起,就会在Bard中实装上线。



同时,谷歌Gemini团队还公布了一份60页的详细技术报告。



消息一出,社交媒体瞬间炸了锅。

英伟达AI科学家Jim Fan就第一时间转发评论:


这是OpenAI王座的有力竞争者。




话不多说,一起来看更多细节。


谷歌史上最强大模型Gemini


在LLM中的表现,也正如我们刚才所述,32个基准测试中拿下30个SOTA。

其中,通用、推理、数学和编程等大方向的成绩如下表所示:



△Gemini 在包括文本和编码在内的一系列基准测试中达到SOTA

多模态方面,Gemini Ultra在新的MMMU基准测试中也获得了59.4%的SOTA分数。

这项基准测试是由跨不同领域的多模式任务组成,需要大模型进行一个深思熟虑的推理过程。

根据谷歌给出的图像基准测试结果来看,Gemini Ultra在没有OCR系统的帮助下,表现优于之前最先进的模型。



△Gemini 在一系列多模态基准测试中达到SOTA

接下来,我们以具体的案例来看一下Gemini的能力。

例如科学家们经常要面对从成千上万的文献中提取数据的难题,像下面这篇研究,作者就通过手动的方法从上万篇遗传学论文中创建了数据集。



像这样的数据集是需得随着时间流逝而进行更新的,但现实的情况是,自2021年以来,这个领域便已有超过200000篇新增的论文……

再像以往手动的方式显然是不可行的,不过现在有了Gemini,一切就变得简单了起来。

首先,通过自然语言的Prompt,告诉Gemini去过滤相关的科学论文:



只需片刻时间,Gemini就能找到相关论文和非相关的论文。



而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据,甚至是可以要求它添加注释的那种。



如果你给Gemini一个午休的时间长度,它就能阅读200000篇论文,从中筛选出250篇并提取数据!



并且由于Gemini是多模态的,我们还可以让它对上面的数据表格做进一步的深入操作,例如更新图表:



对于学生党来说,Gemini现在也可以成为非常得力的学习助手。

例如“喂”给Gemini一张手写物理题,它不仅能看懂,而且还可以辨别手写答案的对错。



在此基础上,若是选择一个错误的题目,我们还可以跟Gemini通过自然语言沟通,让它对每一个细节步骤进行详解。



在看图像做理解和推理方面,谷歌还亮出了更多有意思的案例。

例如替换图片素材的组合方式,Gemini就能像人一样精准猜中所指的电影名字



就连下面这种高难度的也能hold住:



再如寻找两张图片的相似之处:



更有意思的是,谷歌还特意用中文做了个demo,来展示Gemini对多张图片的组合理解能力:



那么接下来的问题就是:Gemini是如何做到的?


60页报告透露技术细节


谷歌Gemini背后技术的杀手锏,便是原生多模态(natively multimodal)。

因为以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。

这样训练出来的模型虽然有时可以很好地执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,就会出现表现不佳的结果。

而谷歌Gemini所强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。

谷歌对此表示:


这样的训练方法,有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。




具体到模型架构方面,Gemini基于增强的Transformer decoder打造,采用了高效attention机制(如multi-query attention),支持32k上下文长度。



尽管没有透露Ultra和Pro版本的具体参数规模,但技术报告中提到,谷歌使用TPUv5e和TPUv4来训练Gemini。

训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比,Gemini在规模上显著增大。

此前,PaLM-2被曝参数规模为3400亿。


Gemini Pro实装上线


竞争对手那边,OpenAI的GPTs惊艳全世界,微软的Copilot更是先一步渗透进全线产品。

因此Gemini一出,谷歌也当即强调:Gemini将通过谷歌产品推向数十亿用户

率先上线的是Gemini Pro。从今天起,谷歌的聊天机器人Bard将由Gemini Pro微调版本驱动。谷歌表示:


这是Bard自推出以来的最大升级。


谷歌还打算把Gemini引入手机:Pixel 8 Pro将是第一款运行Gemini Nano的智能手机。



另外,谷歌计划在接下来几个月中,将Gemini全面推向搜索、广告、Chrome和Duet AI等产品线。

根据官方数据,Gemini能使用户的搜索生成体验(SGE)速度更快、质量更高,比如在美国使用英语搜索延迟能减少40%。

值得关注还有,就在Gemini正式亮相的同时,谷歌还推出了专为大模型而设计的新一代TPU——Cloud TPU v5p。



那么,你觉得这一波,谷歌能赶上OpenAI的脚步吗?



更多互联网行业爆料,以及职场资讯,职业技能经验分享

关注我,给你好看

部分内容引用于网络,如有侵权,请联系删除。

【回复“健康指南”,Get《程序员健康指南》电子书】

回复“1024”,Get 程序猿求职面试葵花宝典电子书】


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
邻家王姐为我偷书 (十)碾压GPT-4?谷歌发布最强AI模型,解读来了超越GPT-4,Google发布大模型Gemini/苹果明年初或将推出多款新品/五月天阿信回应假唱风波长篇小说连载《此世,此生》第五十五章四谷歌AI大模型Gemini亮相:擅长复杂学科推理,能懂编程语言 PK GPT-4谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合谷歌发布 Gemini:我们还是一家强大的公司测评数据超越GPT-4,谷歌推出全新AI模型Gemini李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源​郭碧婷婆婆120w包被吊打,马桶镶钻石、给狗配保姆住豪宅、家里造避难室…真富豪的生活亮瞎眼了!再谈我刚写完的长篇小说《一路走来》突发!谷歌发布史上最强大模型Gemini,赶超GPT-4|亮马桥小纪严选理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送Google 最强大模型发布,GPT-4 要被反超?谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文谷歌推出AI模型Gemini;老凤祥x野兽派推出足金车载香氛;Prada目标将中国业务翻倍... | 刀法品牌热讯AI大乱斗格局凸显,谷歌推出全新AI模型Gemini | 科技趣评震惊!!!谷歌发布最强多模态大模型Gemini谷歌最强AI大模型Gemini 1.0发布;Touch ID发明人宣布退休;麦当劳中国APP启动鸿蒙原生应用开发|AIoT情报突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】Google 史上最强大模型 Gemini,真的全面「碾压」GPT-4 吗?语言理解首超人类,谷歌最新大模型Gemini,碾压GPT-4“不逊色GPT-4”!百度最强大模型发布,我们第一时间实测了一波谷歌深夜放大招!最强大模型Gemini能打败GPT4吗?超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!实测谷歌大模型Gemini:评价与自我评价智谱AI推出新一代基座模型GLM-4,发起大模型开源基金墨尔本会友真我GT5 Pro发布;谷歌推出AI模型Gemini;春晚吉祥物龙辰辰被质疑AI合成一路走来 (四)智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体优等生归来,谷歌最强大模型Gemini能否打败GPT4?|甲子光年AI早知道|知网推出AI写作选题;智谱AI发布大模型GLM-4;华为开源GenImage数据集试用完谷歌的Gemini,我只想说GPT-4有点菜。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。