超越GPT-4！谷歌DeepMind重磅发布Gemini，史上最强最通用大模型！

科技

2023-12-07 01:12

夕小瑶科技说原创
作者 | 王二狗深夜炸弹！

就在刚刚，谷歌 DeepMind 重磅推出了传闻已久的Gemini大模型！

号称是谷歌史上功能最强大、最通用的多模态模型，在很多领先的基准测试中都实现了最先进的性能（SOTA）。

谷歌CEO第一时间发推宣传：

Google DeepMind CEO哈萨比斯和首席科学家Jeff Dean也跟上宣传的队伍：

谷歌表示，Gemini从一开始就被设计为多模态大模型，能够处理文本、代码、音频、图像和视频等信息。

Gemini是谷歌迄今为止构建的最强大、最通用、最灵活的模型，能够在从数据中心到移动设备的所有设备上高效运行。

Gemini 1.0共有Gemini Ultra, Gemini Pro, Gemini Nano三个不同版本：

Gemini Ultra——最大、最强的模型，适用于高度复杂的任务。
Gemini Pro——可扩展到各种任务的最佳模型。
Gemini Nano——最高效的设备端任务模型。

二狗分析来看，Gemini Ultra像是对标GPT-4，Gemini Pro像是对标ChatGPT。

多项任务性能超越GPT-4

谷歌DeepMind一直在严格测试 Gemini模型并评估它在各种任务上的性能。

测试结果表明，Gemini Ultra在自然图像、音频和视频理解到数学推理等大语言模型测试中，在32个基准中的30个上都实现了SOTA(性能上超过了当前最先进的模型)。

同时 Gemini Ultra 也是第一个在 MMLU（大规模多任务语言理解）上超越人类专家的模型，得分高达 90.0%，Gemini Ultra 结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题的能力。

下图显示了Gemini Ultra 在文本、推理、数学和编程等一系列基准测试的结果，几乎每一项都超越了当前最先进的GPT-4模型。

下图显示了Gemini Ultra在图像、视频、音频等一系列多模态基准测试中超越了最先进的GPT-4模型。

下一代功能

到目前为止，业界训练多模态模型的标准方法一般是针对不同模态训练单独的模型，然后将它们缝合在一起。这些模型有时擅长执行某些任务，例如描述图像，但难以处理更概念性和复杂的推理。

而谷歌从一开始就将 Gemini 设计为原生多模态，并针对不同模态进行了预训练，谷歌还使用非常多的多模态数据对其进行微调，进一步完善了Gemini 的多模态能力。Gemini可以从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型——Gemini 几乎在每个领域都是最先进的。

拥有复杂推理的能力

Gemini 1.0 复杂的多模态推理功能可以很好地理解复杂的书面和视觉信息，从而很容易发现大量数据中难以辨别的知识。谷歌声称Gemini Ultra 无需从图像中提取文本以进行进一步处理的对象字符识别 (OCR) 系统。

比如凭借多模态和复杂的推理能力，Gemini 1.0 可以帮助老师轻松检查学生提交的物理作业。

一位老师画了一个滑雪者从斜坡上下来的物理问题，一位学生提出了一个解决方案来计算滑雪者在斜坡底部的速度。Gemini的多模态推理能力能够读懂学生凌乱的笔迹，正确理解问题的表述，并将问题和解决方案都转换为数学排版，识别出学生在解决问题时出错的具体推理步骤，然后给出问题的正确解决方案。

Gemini 1.0还可以通过阅读、过滤和理解信息从数十万份文档中提取卓越的见解，有助于从科学到金融的许多领域以数字速度实现新的突破。

理解文本、图像、音频

Gemini 1.0 经过训练，可以同时识别和理解文本、图像、音频等，可以更好地理解一些微妙的信息，并可以回答与复杂主题相关的问题。

比如先给Gemini输入两种颜色的毛线和对应组合生成的形象：

然后再给两种新颜色的毛线，让Gemini给一些idea。

Gemini很有创意地给出了鳄梨和兔子图像：

Gemini 1.0 还特别擅长解释数学和物理等复杂学科的推理。

比如给 Gemini 输入一张图，询问它下一个图形有可能是什么形状。

Gemini很好地回答出了是六边形，并给出了推理原因。

更多细节可以观看谷歌发布的60页的技术评测报道：

在Google 产品体验Gemini Pro

谷歌将通过旗下一系列产品将 Gemini带给数十亿人。

从今天开始，Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等，这是Bard 自推出以来最大的升级。

Bard 将在 170 多个国家和地区提供英语版本，并计划在不久的将来扩展到不同的模式并支持新的语言和地区。

另外，从 12 月 13 日开始，开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。

使用TPU训练，打造下一代TPU

Gemini 1.0的训练使用了谷歌内部设计的TPU v4 和 v5e，在 TPU 上，Gemini 的运行速度明显快于早期、较小且功能较差的模型。这些定制设计的AI加速器一直是谷歌人工智能产品的核心。

今天，谷歌还宣布推出迄今为止最强大、最高效和可扩展的 TPU 系统 Cloud TPU v5p，专为训练尖端 AI 模型而设计。这款下一代TPU将加速Gemini的开发，帮助开发者和企业客户更快地训练大规模生成式AI模型。

图注：Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机

Google DeepMind CEO哈萨比斯公开信

人工智能一直是我一生工作的重点。自从十几岁的时候为电脑游戏编写AI以来，以及作为一名神经科学研究人员试图了解大脑的运作方式以来，我一直相信，如果我们能够建造更智能的机器，我们就可以利用它们以令人难以置信的方式造福人类。
这个由AI赋能的世界负责任的承诺继续推动着我们在 Google DeepMind 的工作。长期以来，我们一直希望构建新一代人工智能模型，其灵感来自于人们理解世界和与世界互动的方式。人工智能感觉不太像一个智能软件，而更像是有用且直观的东西——一个专家帮助者或助手。
今天，当我们推出 Gemini 时，我们离这一愿景又近了一步，这是我们迄今为止构建的最强大、最通用的模型。
Gemini 是整个 Google 团队（包括 Google Research 的同事）大规模协作努力的成果。它是从头开始构建的多模式，这意味着它可以概括和无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

就在三四天之前，The Information 才爆料，谷歌推迟了原定在下周举行的一系列 Gemini 大模型的发布活动，推迟原因似乎是因为Gemini 无法可靠地处理‘非英语’的任务”。