Redian新闻
>
超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!

超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!

科技

夕小瑶科技说 原创
作者 | 王二狗
深夜炸弹!

就在刚刚,谷歌 DeepMind 重磅推出了传闻已久的Gemini大模型

号称是谷歌史上功能最强大、最通用的多模态模型,在很多领先的基准测试中都实现了最先进的性能(SOTA)。

谷歌CEO第一时间发推宣传:

Google DeepMind CEO哈萨比斯和首席科学家Jeff Dean也跟上宣传的队伍:

谷歌表示,Gemini从一开始就被设计为多模态大模型,能够处理文本、代码、音频、图像和视频等信息。

Gemini是谷歌迄今为止构建的最强大、最通用、最灵活的模型,能够在从数据中心到移动设备的所有设备上高效运行。

Gemini 1.0共有Gemini Ultra, Gemini Pro, Gemini Nano三个不同版本:

  • Gemini Ultra——最大、最强的模型,适用于高度复杂的任务。

  • Gemini Pro——可扩展到各种任务的最佳模型。

  • Gemini Nano——最高效的设备端任务模型。

二狗分析来看,Gemini Ultra像是对标GPT-4,Gemini Pro像是对标ChatGPT。

多项任务性能超越GPT-4

谷歌DeepMind一直在严格测试 Gemini模型并评估它在各种任务上的性能。

测试结果表明,Gemini Ultra在自然图像、音频和视频理解到数学推理等大语言模型测试中,在32个基准中的30个上都实现了SOTA(性能上超过了当前最先进的模型)。

同时 Gemini Ultra 也是第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型,得分高达 90.0%,Gemini Ultra 结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题的能力。

下图显示了Gemini Ultra 在文本、推理、数学和编程等一系列基准测试的结果,几乎每一项都超越了当前最先进的GPT-4模型。

下图显示了Gemini Ultra在图像、视频、音频等一系列多模态基准测试中超越了最先进的GPT-4模型。

下一代功能

到目前为止,业界训练多模态模型的标准方法一般是针对不同模态训练单独的模型,然后将它们缝合在一起。这些模型有时擅长执行某些任务,例如描述图像,但难以处理更概念性和复杂的推理。

而谷歌从一开始就将 Gemini 设计为原生多模态,并针对不同模态进行了预训练,谷歌还使用非常多的多模态数据对其进行微调,进一步完善了Gemini 的多模态能力。Gemini可以从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型——Gemini 几乎在每个领域都是最先进的。

拥有复杂推理的能力

Gemini 1.0 复杂的多模态推理功能可以很好地理解复杂的书面和视觉信息,从而很容易发现大量数据中难以辨别的知识。谷歌声称Gemini Ultra 无需从图像中提取文本以进行进一步处理的对象字符识别 (OCR) 系统。

比如凭借多模态和复杂的推理能力,Gemini 1.0 可以帮助老师轻松检查学生提交的物理作业。

一位老师画了一个滑雪者从斜坡上下来的物理问题,一位学生提出了一个解决方案来计算滑雪者在斜坡底部的速度。Gemini的多模态推理能力能够读懂学生凌乱的笔迹,正确理解问题的表述,并将问题和解决方案都转换为数学排版,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。

Gemini 1.0还可以通过阅读、过滤和理解信息从数十万份文档中提取卓越的见解,有助于从科学到金融的许多领域以数字速度实现新的突破。

理解文本、图像、音频

Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,可以更好地理解一些微妙的信息,并可以回答与复杂主题相关的问题。

比如先给Gemini输入两种颜色的毛线和对应组合生成的形象:

然后再给两种新颜色的毛线,让Gemini给一些idea。

Gemini很有创意地给出了鳄梨和兔子图像:

Gemini 1.0 还特别擅长解释数学和物理等复杂学科的推理。

比如给 Gemini 输入一张图,询问它下一个图形有可能是什么形状。

Gemini很好地回答出了是六边形,并给出了推理原因。

更多细节可以观看谷歌发布的60页的技术评测报道:

在Google 产品体验Gemini Pro

谷歌将通过旗下一系列产品将 Gemini带给数十亿人。

从今天开始,Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等,这是Bard 自推出以来最大的升级。

Bard 将在 170 多个国家和地区提供英语版本,并计划在不久的将来扩展到不同的模式并支持新的语言和地区。

另外,从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。

使用TPU训练,打造下一代TPU

Gemini 1.0的训练使用了谷歌内部设计的TPU v4 和 v5e,在 TPU 上,Gemini 的运行速度明显快于早期、较小且功能较差的模型。这些定制设计的AI加速器一直是谷歌人工智能产品的核心。

今天,谷歌还宣布推出迄今为止最强大、最高效和可扩展的 TPU 系统 Cloud TPU v5p,专为训练尖端 AI 模型而设计。这款下一代TPU将加速Gemini的开发,帮助开发者和企业客户更快地训练大规模生成式AI模型。

图注:Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机

Google DeepMind CEO哈萨比斯公开信

人工智能一直是我一生工作的重点。自从十几岁的时候为电脑游戏编写AI以来,以及作为一名神经科学研究人员试图了解大脑的运作方式以来,我一直相信,如果我们能够建造更智能的机器,我们就可以利用它们以令人难以置信的方式造福人类。

这个由AI赋能的世界负责任的承诺继续推动着我们在 Google DeepMind 的工作。长期以来,我们一直希望构建新一代人工智能模型,其灵感来自于人们理解世界和与世界互动的方式。人工智能感觉不太像一个智能软件,而更像是有用且直观的东西——一个专家帮助者或助手。

今天,当我们推出 Gemini 时,我们离这一愿景又近了一步,这是我们迄今为止构建的最强大、最通用的模型。

Gemini 是整个 Google 团队(包括 Google Research 的同事)大规模协作努力的成果。它是从头开始构建的多模式,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。

就在三四天之前,The Information 才爆料,谷歌推迟了原定在下周举行的一系列 Gemini 大模型的发布活动,推迟原因似乎是因为Gemini 无法可靠地处理‘非英语’的任务”。

本以为要明年才能见到 Gemini亮相,看来谷歌还是给人制造了惊喜啊。

Google+DeepMind VS 微软+OpenAI,谁才是AI最强霸主?

让我们拭目以待吧。另外,国内AI也加油崛起啊!


参考资料

[1]https://twitter.com/GoogleDeepMind

[2]https://blog.google/technology/ai/google-gemini-ai/#availability

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
测评数据超越GPT-4,谷歌推出全新AI模型Gemini于向真:湖南之行讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此1分钟预测10天全球天气!谷歌DeepMind全新AI天气预报登上Science,碾压行业SOTA谷歌DeepMind核心大佬被曝离职创业,瞄准AI智能体!曾是Gemini关键负责人DeepMind大模型登Science:1分钟预测10天天气数据,90%指标超越人类最强模型谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化火了半年整天吊打别人的GPT-4,今天碰到个头铁的被吊打, 谷歌发布史上最强大模型GeminiAI无法颠覆化学?谷歌DeepMind论文被爆重大缺陷,伦敦大学教授建议撤回Nature谷歌DeepMind机器人成果三连发!两大能力全提升,数据收集系统可同时管理20个机器人再读席慕容的诗今天巴伐利亚州议会选举LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术谷歌DeepMind打造基于人工智能的医疗问诊对话工具AMIE谷歌DeepMind全新AI天气预报神器GraphCast登上Science!1分钟预测10天全球天气,碾压行业SOTA!谷歌DeepMind发布三项机器人研究成果;传苹果将在WWDC发布生成式AI版本Siri丨AIGC日报斯坦福机器人炒虾爆火网络,谷歌DeepMind发布机器人最新进展,2024智能机器人元年到来?超越GPT-4,Google发布大模型Gemini/苹果明年初或将推出多款新品/五月天阿信回应假唱风波突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】AI要从娃娃抓起!微软谷歌DeepMind推出AI入门课程,零基础进入AI行业谷歌DeepMind最新研究:对抗性攻击对人类也有效,人类和AI都会把花瓶认成猫!智能周报|Google发布Gemini;OpenAI推迟发布GPT商店;微软明年发布新版Windows,AI功能大幅增强…“自己人” 买房泡汤了!(今日世界日报)新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源谷歌DeepMind科学家「被爆将离职创业」!曾参与AlphaGo、Alphafold工作,首轮融资或超2亿美元谷歌DeepMind爆火动画18秒解释LLM原理!谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!UC伯克利等发布多模态基础模型CoDi-2;谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报突发!谷歌发布史上最强大模型Gemini,赶超GPT-4|亮马桥小纪严选2028年第一个AGI将到来?谷歌DeepMind提6条AGI标准,定义5大AGI等级谷歌DeepMind给AGI划等级,猜猜ChatGPT在哪个位置全新开源AI代码工具诞生!超越谷歌DeepMind旗下AlphaCode全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步小说:兰欣与乌茶 34
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。