突发！谷歌深夜掀桌子，发最强大模型Gemini，跑分碾压GPT-4【附60页技术报告】

2023-12-06 20:12

谷歌最强大模型Gemini来了，ChatGPT劲敌，语言理解首次超越人类！

作者 | 香草

编辑 | 漠影

北京时间12月7日凌晨，期盼已久的谷歌AI大模型Gemini终于发布了！

作为谷歌用来应对GPT-4的“杀手锏”，Gemini也不负众望，一亮相就拿出了许多亮眼的成绩：首次在MMLU（大规模多任务语言理解）测评上超过人类专家，在32个多模态基准中取得30个SOTA（当前最优效果），几乎全方位超越GPT-4。

▲Gemini成为首个在MMLU上超越人类专家的大模型

实际上，Gemini的发布也是一波三折。今年8月就有消息称，Gemini将在秋季发布。但到了11月，Gemini又被传出推迟至明年第一季度发布。

此次发布，谷歌称之为Gemini 1.0，包含三个版本：适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。

其中，Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上集成，最强大的Gemini Ultra则将在明年发布。

01.

三大版本、五种模态

多模态性能全面超越GPT-4V

作为一个从头开始构建的多模态大模型，Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。

这意味着用户可以自然地交错输入：说几句话，添加图像、文本，或是短视频。同样，模型也会自然地交错文本和图像作为输出。

▲Gemini根据视频输入生成代码

Gemini具有三个版本：规模最大、功能最强大，适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。所谓的端侧，主要是指能在手机、平板、PC上直接运行。

▲Gemini的三个版本

其中，Gemini Nano还包含两个规模，分别是参数18亿的Nano-1和参数32.5亿的Nano-2，针对低内存和高内存设备。Gemini Nano是通过从更大的Gemini模型中提取知识进行训练的，它经过4位量化处理用于部署，并提供最佳性能。

▲Gemini 1.0全家桶介绍

谷歌宣称，Gemini Ultra是首个在MMLU任务上表现优于人类专家的大模型，取得90.0%的成绩。作为对比，人类专家的成绩为89.8%，GPT-4为86.4%。

从测评数据上来看，Gemini的性能在多模态任务上全面超越GPT-4V。

▲Gemini在多模态任务上的表现

在文本任务上，Gemini Ultra也几乎全方位胜于GPT-4V。

▲Gemini在文本任务上的表现

具体来说，Gemini Ultra在32个基准测试中的30个中取得SOTA，还在上周新发布的MMMU多模态推理基准上取得了62.4%的最佳分数，比之前的SOTA模型高出5个百分点以上。

本文福利：谷歌Gemini大模型在文本、多模态基准上取得优异成绩，背后的技术原理引发关注。推荐谷歌DeepMind首席科学家杰夫·迪恩团队撰写的60页技术报告《Gemini：一系列功能强大的多模态模型》。可在公众号聊天栏回复关键词【Gemini】获取。

02.

解题、写文案、做菜谱

60页技术报告教你玩转Gemini

“如果回顾在过去几十年时间AI发展的突破性节点，你会发现谷歌在其中参与良多。我认为Gemini，将会继承这个优良的传统。”在谷歌官方发布的视频里，谷歌CEO桑达尔·皮查伊（Sundar Pichai）面带着笑意说道。

▲谷歌CEO桑达尔·皮查伊

皮查伊还发布了一封公开信，以下是公开信全文：

每一次技术转变都是推动科学发现、加速人类进步和改善生活的机会。我相信我们目前所见到的AI的转变将是我们一生中最深远的，远远超过移动技术或互联网的转变。AI有潜力为全球各地的人们创造机会，从日常生活到非凡事物。它将带来新的创新浪潮和经济进步，并在我们从未见过的规模上推动知识、学习、创造力和生产力。

这就是让我兴奋的地方：有机会让AI对全世界的每个人都有帮助。

作为一个以AI为核心的公司，我们已经走过了近八年的旅程，进展的速度只会越来越快：数百万人现在在我们的产品中使用生成式AI来完成以前甚至无法完成的任务，从回答更复杂的问题到使用新工具进行协作和创造。同时，开发人员正在使用我们的模型和基础设施构建新的生成式AI应用程序，全球的初创企业和企业正在借助我们的AI工具实现增长。

这是令人难以置信的势头，然而，我们只是刚刚开始揭开可能性的表面。

我们以大胆和负责任的态度进行这项工作。这意味着我们在研究中有着雄心勃勃的目标，追求能够给人们和社会带来巨大利益的能力，同时建立安全保障，并与政府和专家合作，应对AI变得更加强大时的风险。我们继续投资于最好的工具、基础模型和基础设施，并将它们应用于我们的产品和其他领域，遵循我们的AI原则的指导。

现在，我们正迈向旅程的下一步，推出Gemini，这是我们迄今为止最强大、最通用的模型，具备许多领先基准测试的先进性能。我们的第一个版本，Gemini 1.0，针对不同的规模进行了优化：Ultra、Pro和Nano。这些是Gemini时代的第一个模型，也是我们今年早些时候成立谷歌DeepMind时设想的第一个实现。这一新模型时代代表着我们作为一家公司所进行的最大的科学和工程努力之一。我对未来和Gemini将为全球人们带来的机遇感到真正兴奋。