Redian新闻
>
突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】

突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】

科技

谷歌最强大模型Gemini来了,ChatGPT劲敌,语言理解首次超越人类!
作者 |  香草
编辑 |  漠影
北京时间12月7日凌晨,期盼已久的谷歌AI大模型Gemini终于发布了!
作为谷歌用来应对GPT-4的“杀手锏”,Gemini也不负众望,一亮相就拿出了许多亮眼的成绩:首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4

▲Gemini成为首个在MMLU上超越人类专家的大模型

实际上,Gemini的发布也是一波三折。今年8月就有消息称,Gemini将在秋季发布。但到了11月,Gemini又被传出推迟至明年第一季度发布。
此次发布,谷歌称之为Gemini 1.0,包含三个版本:适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano
其中,Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上集成,最强大的Gemini Ultra则将在明年发布。

01.
三大版本、五种模态
多模态性能全面超越GPT-4V


作为一个从头开始构建的多模态大模型,Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。
这意味着用户可以自然地交错输入:说几句话,添加图像、文本,或是短视频。同样,模型也会自然地交错文本和图像作为输出。

▲Gemini根据视频输入生成代码

Gemini具有三个版本:规模最大、功能最强大,适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。所谓的端侧,主要是指能在手机、平板、PC上直接运行。

▲Gemini的三个版本

其中,Gemini Nano还包含两个规模,分别是参数18亿的Nano-1和参数32.5亿的Nano-2,针对低内存和高内存设备。Gemini Nano是通过从更大的Gemini模型中提取知识进行训练的,它经过4位量化处理用于部署,并提供最佳性能。

▲Gemini 1.0全家桶介绍

谷歌宣称,Gemini Ultra是首个在MMLU任务上表现优于人类专家的大模型,取得90.0%的成绩。作为对比,人类专家的成绩为89.8%,GPT-4为86.4%。
从测评数据上来看,Gemini的性能在多模态任务上全面超越GPT-4V

▲Gemini在多模态任务上的表现

在文本任务上,Gemini Ultra也几乎全方位胜于GPT-4V。

▲Gemini在文本任务上的表现

具体来说,Gemini Ultra在32个基准测试中的30个中取得SOTA,还在上周新发布的MMMU多模态推理基准上取得了62.4%的最佳分数,比之前的SOTA模型高出5个百分点以上
本文福利:谷歌Gemini大模型在文本、多模态基准上取得优异成绩,背后的技术原理引发关注。推荐谷歌DeepMind首席科学家杰夫·迪恩团队撰写的60页技术报告Gemini:一系列功能强大的多模态模型可在公众号聊天栏回复关键词【Gemini】获取。

02.
解题、写文案、做菜谱
60页技术报告教你玩转Gemini


“如果回顾在过去几十年时间AI发展的突破性节点,你会发现谷歌在其中参与良多。我认为Gemini,将会继承这个优良的传统。”在谷歌官方发布的视频里,谷歌CEO桑达尔·皮查伊(Sundar Pichai)面带着笑意说道。

▲谷歌CEO桑达尔·皮查伊

皮查伊还发布了一封公开信,以下是公开信全文:
每一次技术转变都是推动科学发现、加速人类进步和改善生活的机会。我相信我们目前所见到的AI的转变将是我们一生中最深远的,远远超过移动技术或互联网的转变。AI有潜力为全球各地的人们创造机会,从日常生活到非凡事物。它将带来新的创新浪潮和经济进步,并在我们从未见过的规模上推动知识、学习、创造力和生产力。
这就是让我兴奋的地方:有机会让AI对全世界的每个人都有帮助。
作为一个以AI为核心的公司,我们已经走过了近八年的旅程,进展的速度只会越来越快:数百万人现在在我们的产品中使用生成式AI来完成以前甚至无法完成的任务,从回答更复杂的问题到使用新工具进行协作和创造。同时,开发人员正在使用我们的模型和基础设施构建新的生成式AI应用程序,全球的初创企业和企业正在借助我们的AI工具实现增长。
这是令人难以置信的势头,然而,我们只是刚刚开始揭开可能性的表面。
我们以大胆和负责任的态度进行这项工作。这意味着我们在研究中有着雄心勃勃的目标,追求能够给人们和社会带来巨大利益的能力,同时建立安全保障,并与政府和专家合作,应对AI变得更加强大时的风险。我们继续投资于最好的工具、基础模型和基础设施,并将它们应用于我们的产品和其他领域,遵循我们的AI原则的指导。
现在,我们正迈向旅程的下一步,推出Gemini,这是我们迄今为止最强大、最通用的模型,具备许多领先基准测试的先进性能。我们的第一个版本,Gemini 1.0,针对不同的规模进行了优化:Ultra、Pro和Nano。这些是Gemini时代的第一个模型,也是我们今年早些时候成立谷歌DeepMind时设想的第一个实现。这一新模型时代代表着我们作为一家公司所进行的最大的科学和工程努力之一。我对未来和Gemini将为全球人们带来的机遇感到真正兴奋。

而作为Gemini的另一大功臣,DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)则给出更为具体的介绍,“Gemini是我们最强大的模型。通过吸收大量的信息,它可以理解我们四周的环境,理解我们的思维方式,并有所产出。”

▲DeepMind CEO戴密斯·哈萨比斯

同时,谷歌也考虑到AI大模型的安全性,提供了一系列保护措施。
谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean)在社交平台X贴出了自己团队专门为Gemini写的60页技术报告,来介绍Gemini的能力。

▲DeepMind首席科学家杰夫·迪恩

利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学排版,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。

▲Gemini识别手写笔记并解物理题

利用交错图像和文本生成能力,Gemini可以帮助用户写博客。Gemini能够按照提示词生成与文本密切相关的图像,并且所有图像显示出高度的一致性。下图的提示词为:写一篇去纽约游玩的博客,一只狗和它的主人玩得很开心,包括几张狗狗在不同地标欢快摆姿势的照片。

▲Gemini交错生成文字和图像

通过图像和语音输入,Gemini可以指导做菜,并在不同阶段提出相应的建议。

▲Gemini通过多模态能力辅助做菜

在最常规的文本基准测试中,我们更是看到Gemini“超过”2023年发布的一系列大模型,但如果仔细观看数据,我们也能发现事实上,Gemini拉开的差距并不大。

而在Gemini系列内部,我们也能看到不同版本的模型对语言理解和文本生成的能力有所不同。

在图像理解方面,Gemini Ultra也优于现有的方法。

但我们也能够从近期发布的一系列的大模型测试文件中,看到整个AI产业正在以滚滚巨浪的态势,迅速向前推进。

03.
Gemini Pro已接入聊天机器人Bard
下周起开放API


目前,谷歌旗下的聊天机器人Bard已经集成Gemini Pro的微调版本,在170多个国家和地区提供英语服务。这是Bard自推出以来最大的升级。
谷歌称,在未来几个月内,Bard将扩展不同的模态,并支持新的语言和地区。明年年初,谷歌还将推出Bard Advanced,提供Gemini Ultra模型的最佳性能。
谷歌的Pixel 8 Pro成为首款搭载Gemini Nano的智能手机,推出录音总结、智能回复等AI功能,明年还将推出更多应用。
针对开发者,Gemini Pro将于美国时间12月13日开始提供API(应用程序接口),开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI获取Gemini Pro入口。
安卓开发者还可以通过谷歌日前推出的AI Core应用来使用Gemini Nano。
Bard体验地址:bard.google.com

▲谷歌数据中心的Cloud TPU v5p AI加速器超级计算机


04.
结语:谷歌凭Gemini追赶
微软和OpenAI步伐


昨天,微软刚刚宣布了旗下AI助手Copilot重大升级,将接入OpenAI的最新模型GPT-4 Turbo。正当我们感慨,留给谷歌的时间已经不多了的时候,谷歌突然亮出底牌,甩出Gemini全家桶与之对抗。
虽然目前仅开放了Gemini Pro和Nano,但Gemini Ultra在测评基准上取得的成绩已十分亮眼,尤其是代码生成能力方面。这无疑是在OpenAI陷入内部混乱的时候给了它重重一击。
Gemini Ultra将于明年发布,它在实践中的具体表现将会如何,我们将持续关注。
本文福利:谷歌Gemini大模型在文本、多模态基准上取得优异成绩,背后的技术原理引发关注。推荐谷歌DeepMind首席科学家杰夫·迪恩团队撰写的60页技术报告Gemini:一系列功能强大的多模态模型可在公众号聊天栏回复关键词【Gemini】获取。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类火了半年整天吊打别人的GPT-4,今天碰到个头铁的被吊打, 谷歌发布史上最强大模型Gemini测评数据超越GPT-4,谷歌推出全新AI模型GeminiHinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4假山假水愈真情谷歌深夜放杀器Gemini,最强原生多模态碾压GPT-4?优等生归来,谷歌最强大模型Gemini能否打败GPT4?|甲子光年谷歌推出AI模型Gemini;老凤祥x野兽派推出足金车载香氛;Prada目标将中国业务翻倍... | 刀法品牌热讯AI大乱斗格局凸显,谷歌推出全新AI模型Gemini | 科技趣评真我GT5 Pro发布;谷歌推出AI模型Gemini;春晚吉祥物龙辰辰被质疑AI合成早晨空腹游泳好吗?碾压GPT-4?谷歌发布最强AI模型,解读来了13B模型全方位碾压GPT-4?这背后有什么猫腻智谱AI推出新一代基座模型GLM-4,发起大模型开源基金参数量13B模型全方位碾压GPT-4?这背后有什么猫腻谷歌深夜放出大杀器?Gemini打爆GPT?别太浮夸!Temu的中国卖家掀桌子了实测谷歌大模型Gemini:评价与自我评价语言理解首超人类,谷歌最新大模型Gemini,碾压GPT-4谷歌深夜放大招!最强大模型Gemini能打败GPT4吗?缘拾UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导谷歌最强AI大模型Gemini 1.0发布;Touch ID发明人宣布退休;麦当劳中国APP启动鸿蒙原生应用开发|AIoT情报小说:兰欣与乌茶 34超越GPT-4,Google发布大模型Gemini/苹果明年初或将推出多款新品/五月天阿信回应假唱风波再读席慕容的诗UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星突发!谷歌发布史上最强大模型Gemini,赶超GPT-4|亮马桥小纪严选超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!谷歌AI大模型Gemini亮相:擅长复杂学科推理,能懂编程语言 PK GPT-4Google 史上最强大模型 Gemini,真的全面「碾压」GPT-4 吗?震惊!!!谷歌发布最强多模态大模型Gemini碾压GPT4,超越人类?谷歌Gemini 6分钟互动视频来了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。