Google发布二代大模型，但与GPT-4仍有差距

公众号新闻

2023-05-12 01:05

「大公司最新动态，只在值得关注时更新」

记者｜王杰夫

编辑｜吴洋洋

Key Points

Google推出第二代语言大模型PaLM2。一代PaLM只会英文等少数语言和简单推理，二代PaLM2掌握了多语种，还学会了写代码。

Google Brain与DeepMind合并为Google DeepMind，正在开发对标GPT-4的多模态模型，项目代号“Gemini”（双子星）。

关于个人的AI助理，Google给了你四种形态：对话式的Bard、办公软件包Duet AI、加强版Google搜索，以及私人助理Tailwind。

对于公司与开发者，Google Cloud为Vertex AI增加了三种新模型。

Google的AI价值观：果敢和责任

The last thing：Pixel系列产品更新了Google又要做平板电脑。

5月10日，一年一度的Google I/O全球开发者大会如期在山景城召开。上一年的大会主题全是硬件：从手机、降噪耳机到AR 眼镜、Watch手表，但今年则几乎都是AI——这在所有人的意料之中。

这股AI新浪潮自去年12月由OpenAI的ChatGPT发起，再由微软推波助澜，曾一度让自视AI领头羊的Google措不及防。今年3月，Google为应对ChatGPT，着急发布了聊天机器人Bard，但因为表现不佳，股价一度跌掉千亿美元。不过，作为过去十年AI业内的话事人、Transformer模型的发明者、硅谷AI人才的黄埔军校，Google经过几个月的重整旗鼓，势必要在这一年度大会上找回面子。

除了发布内容大换血，这一次Google的发布风格也有显而易见的改变。它对AI落地的思路变得更加全面、完整了，最重要的是，它没有再保持高高在上的姿态，而是反反复复用各种贴近生活的使用案例来展示AI的潜力——这正是ChatGPT走红的关键。

（图片来源：A Survey of Large Language Models

https://arxiv.org/abs/2303.18223）

基础模型：

PaLM2只是Google AI的现在

多模态的Gemini（双子星）才是未来

时隔一年，Google推出了新一代语言大模型PaLM2。“得益于在科学主题上做了更广泛的训练，PaLM2 在逻辑和推理方面更强大，”Google首席执行官桑达尔·皮查伊（Sundar Pichai）在演讲中说，“它接受了100种语言的文本训练，这让它理解能力更好，生成的结果更加精确。”

（图注：PaLM2模型有四种大小不同的尺寸）

相较于前一代模型：

· PaLM2在“多语种”方面改变最大，因为它在100种语言的多语言文本上接受了“更加严格的训练”。

· 其次是推理能力，PaLM2数据更加广泛地覆盖了科学论文、带有数学表达式的网页，以提高逻辑、常识推理和数学能力。

· 最后是写代码能力，Google使用了大量源代码数据训练新模型，包括Python、JavaScript、Prolog、Fortran和Verilog等在内的代码都是PaLM2训练的一部分。作为对照，一代模型PaLM几乎不会写代码。不过，与GPT4相比，PaLM2的代码能力仍然不够有竞争力。

同时，PaLM2不再像前任那样只是一个单一的模型，而是可以根据用户需求和使用场景做定制化调整。它拥有四种不同尺寸，Google以动物主题从小到大命名为Gecko（壁虎，3.3B）、Otter（水獭，6.08B）、Bison（野牛，8.95B）和Unicorn（独角兽，14.7B），其中最小的Gecko甚至可以在手机上离线运行，每秒能处理20个token（16个左右单词）。

此外，PaLM2在医学和信息安全两个垂直场景有特殊微调，分别名为Med-PaLM2和Sec-PaLM2，例如Med-PaLM2就具有理解X光片的特殊能力。

（图注：Med-PaLM2在医学领域的应用）

PaLM2可以说是目前Google AI生态中最核心的底层能力之一，例如聊天机器人Bard就是它来支撑的。但PaLM2只是基于语言数据训练的大模型，无法满足Google众多产品需求，因此皮查伊也表示，下一代的多模态模型Gemini（双子星）已经在开发中了。

前不久，Google Brain与DeepMind宣布合并成立的Google DeepMind将负责开发Gemini。这两个团队一直都是Google最重要的AI开发力量，贡献了Transformer、TensorFlow、AlphaGo、AlphaFold这些鼎鼎大名的产品。其中，Google Brain源自内部孵化，过去一直是功勋老将Jeff Dean负责；而DeepMind则来自收购，继续由创始人戴密斯·哈萨比斯（Demis Hassabis）管理。

过去分成两个团队独立作战，体现了一种赛马思想，但现在受迫于微软与OpenAI的压力，二者不得不捏合到一起。此次合并后，Jeff Dean担任新部门的首席科学家，而哈萨比斯担任CEO，两人分别同时向皮查伊汇报。在这个背景下，Gemini（双子星）这个名字显得有些微妙。

Bard、Duet AI、新版Google搜索，

以及有趣的Tailwind

——Google为个人助理提供了AI组合拳

对于个人的AI助理到底长什么样子，科技圈还没有统一的解决方案。微软有自己推出的结合Office办公软件的Copilot，也有继续独立运行的ChatGPT，还有结合New Bing搜索的Bing Chat。

对此，Google的应对也简单直接，那就是“我全都要”。你完全可以把Bard对应成ChatGPT，Duet AI对应着Copilot，新版Google搜索对应着New Bing。它们能做的事情大同小异，但是交互方式上各不相同：

·Bard是聊天机器人

它不会主动出现。当你有问题时就可以向它提问来寻求解决，包括修改代码、生成图片，甚至为你报考大学提供各种建议。在演示中，它能够以文字方式回复你关于大学选专业的建议，并且生成这些大学在地图上的位置图片，最后还可以把这些信息整理成图表。

·Duet AI是工作时的助理

它需要结合Google Workspace来使用，当你需要帮助时，点击软件角落处的按钮就能够唤醒它。例如当你用Google文档写招聘信息时，只需要告诉Duet AI你的招聘需求，它就能够为你生成招聘模板，你可以直接将其插入到文档中。再例如，使用Google幻灯片时，如果要求Duet AI生成演讲稿，它就能够根据幻灯片的内容提供相应的演讲大纲。

（图注：Duet AI现场演示上下文写作能力）

· 新版Google搜索是所有AI产品中交互方式最显眼也最直接的。

当你搜索信息时，它会直接在搜索结果的最前面生成基于你搜索关键词产生的文本。例如当你搜索“情侣带着狗北京9月景点推荐”时，虽然你并没有输入完整的句子，但新版Google搜索能够理解你在寻求旅行建议，于是它会基于网络上的内容，生成北京各个景点的推荐信息，并指出哪些景点是允许携带宠物的。

加总在一起，Google今天发布的PaLM2支持25个Google产品。目前，Bard已经在180个国家和地区开放使用，支持英语、日语和韩语，未来将进一步支持40种语言。而Duet AI与新版Google搜索还在测试中，都需要申请排队进入候选名单，并且前者还需要拥有Workspace账号，后者仅限美国用户试用。

除此之外，Google还宣布了一个特别的实验性项目Tailwind。在演讲介绍中，这是一个真正的私人助理，它的一切信息来源于你提供给它的内容。

你可以把你的读书笔记、你写过的文章、你读过的书等提供给它，在学习这些内容后，它就能够基于提供的内容系统性地回答你的问题。

Google表示，这款产品的目标用户包括需要写论文的大学生、写文章的作家、参加财报电话会议的金融分析师或者是受理案件的律师。同样，目前这款产品也只接受美国用户申请试用。

Google云业务新增3个基础模型和强化学习能力，希望至少不要被微软比下去

李彦宏说生成式AI是云业务的“Game Changer”，Google也认同这一点——尤其面对微软Azure的强势攻力。

2022年三季度全球云计算基础设施市场份额中，亚马逊AWS占比34%，微软Azure占比21%，Google Cloud占比11%。经过前几年的突飞猛进，各家公司云业务增速已逐渐放缓，而今年年初，微软火速与OpenAI签订了合作协议，Azure已成为OpenAI的独家云供应商。

此次发布会上，Google宣布，为旗下的机器学习平台Vertex AI增加新的能力，包括三个基础模型Codey、Imagen和Chirp，以及强化学习RLHF功能。

（图注：机器学习平台Vertex AI新增的基础模型之一Codey）

Codey是一个生成代码的模型，它能够实时生成代码、给出优化建议，目前已经支持20多种编码语言；Imagen是图像生成模型，并且可以用自然语言对图像做微调；Chirp是一个语音转文本的模型，它可以实时生成字幕，支持上百种语言。Google还宣传自己是首个提供人类反馈中强化学习（RLHF）功能的机器学习平台，企业用户可以对所有模型做定制化的提升。

此外，就像前面提到的私人助理Tailwind，Google也为企业用户提供了类似的能力。企业可以将各种数据、文档交给AI处理，从而实现为每个企业定制的搜索引擎。Google强调这些数据是安全的，只有企业本身有权限访问。

三款Pixel硬件，好久不见的平板电脑

与首次亮相的折叠屏手机

主题演讲的最后，Google照例公布了3款新设备，分别是中端手机Pixel 7a，高端手机Pixel Fold和平板电脑Pixel Tablet，都搭载了最新的Tensor G2芯片。其中，Pixel 7a定价499美元，现货发售；Pixel Fold折叠屏手机定价1799美元，今天开放预订，下月发售，免费送Pixel Watch手表。得益于Google软硬一体的设计思路，Pixel是所有Android手机中最先体验到Google AI技术的，包括魔法般的图片编辑、实时的录音转文字等功能。Google宣称自己是当前增长最快的Android手机设备制造商。

值得一提的是最新的Pixel Tablet。上一次Google发布平板电脑还得追溯到2018年推出的Pixel Slate，不过这款产品采用的是ChromeOS系统，销量惨淡到Google一度宣布不再推出平板电脑；而Google的上一款Android系统平板电脑是2015年的Pixel C，那一年苹果推出了首款iPad Pro。

（图注：Pixel Tablet）

平板电脑早就不是个好生意了。自从2014年达到出货量顶峰后，这些年虽然有涨有跌，但平板电脑再也没能在一年卖出2.3亿台。在整个平板电脑市场中，iPad销量占据1/3以上的份额，并且拿走了行业绝大部分的利润。那么Google为何要在此时选择重新入局？或许我们可以从Google对Pixel Tablet的定位中看出端倪。

与苹果对iPad创意型生产力工具的定位相反，Google对于这款平板电脑的定位是家庭中枢，你既可以把它看作一台带着显示器的智能音箱，也可以把它看成一台连着底座的平板电脑。为了更好地让你把它放在家里，Google专门为它设计了一款充电音响底座，而且只要你买平板电脑，底座就免费送给你。

在演示视频中，Google展示了人们可以用它来视频通话、投屏看剧，以及控制智能家居。为了更好适应家庭场景，它还有方便的多用户功能，并支持指纹快速切换，一切的一切都服务于家庭。相比于最便宜也要近500美元的iPad，这还不算键盘和手写笔的支出，Pixel Tablet 499美元的定价看起来友善得多。

成为每个家庭的智能终端是科技巨头们经久不衰的野望，过去有带着Xbox的微软，后来有带着Echo的亚马逊，它们的战略都很难称得上成功，现在又来了带着Pixel Tablet的Google，这一次有着更聪明的AI加持，Google的赢面不知道会不会大一点——至少苹果到现在还没有行动起来，ChatGPT发布之后，苹果在新的AI范式领域几乎是失声的。

对于AI的担忧，Google提出要

果敢（Bold）而负责（Responsible）

AI的伦理问题再次被强调。

“虽然两者之间似乎存在天然的紧张关系（指果敢和负责），但我们认为，有效地应对这种紧张关系不仅是可能的，而且实际上是至关重要的，”Google技术与社会高级副总裁James Manyika在大会上说道，“保持长期果敢的唯一方法是从一开始就肩负责任。”

这并不令人感到意外，在主题演讲AI部分的最后，Google决定以阐述价值观作为结尾。一方面是这一波AI的潜力前所未有的强劲，越来越多人对此感到担忧；另一方面，Google曾经吃过苦头，就在5年前的I/O大会上，皮查伊因为介绍语音助理Duplex时打电话模仿人类“欺骗”店员订餐而饱受批评。

James Manyika表示，Google做了多项努力来减少AI可能造成的负面影响。例如在用户使用Imagen生成图片时会同时生成关于这张图片的元数据，里面包含了这张图片是由谁、通过何种方式生成的，以通过这种方式防止有人恶意伪造虚假图片。James Manyika还展示了一个通用翻译工具。该工具可以将一段演讲视频通过文本翻译、语音生成、口型匹配等AI能力，让演讲者“换一种语言”。这类技术很容易被用来伪造视频，因此Google只会授权给特定机构使用。

但涉及模型的细节，Google也不再如以前开放。阐述PaLM2的论文中，Google再次强调，“我们发现数据的构成是最终模型的关键组件。”但这篇长达91页的论文里，Google没有提供PaLM2是如何构建任何信息的，没有公布PaLM 2的参数，也没有透露训练语言中的英文预料占比、非英文预料占比。

可以确定，从语言大模型变成产品——甚至商品，而不仅仅是一项研究——以来，我们来到了一个转折点：有盈利需求的公司都开始变得越来越不透明。这是好事还是坏事，富有争议。

总之，在OpenAI的加持下，微软在PC端的AI化上先行了一步，Google看起来想在移动端来个截击，但基础模型的差距仍难以忽视。

注：文中插图来源于Google I/O大会直播截图与arXiv网站

-END-

新皮层New New Thing

Hello！

我们是一个诞生于GPT浪潮中、由《第一财经》YiMagazine孵化的全新内容IP。

和每一位关心技术、关照人的命运的读者一样，我们希望在这个有史以来不确定性最高的时代，更好地理解快速变化的科技世界，也更好地理解生而为“高级智能”的我们自己。在这个目标下，我们计划从学术、商业、伦理、监管等多个角度报道和讨论与“智能”相关的议题。请注意，我们说的是智能，不只是AI。

喜欢就关注我们吧，记得“设为星标”哦~

接下来将更新：

王小川专访

谁该为生成式AI的内容负责