Google发布二代大模型,但与GPT-4仍有差距
「大公司最新动态,只在值得关注时更新」
Key Points
Google推出第二代语言大模型PaLM2。一代PaLM只会英文等少数语言和简单推理,二代PaLM2掌握了多语种,还学会了写代码。
Google Brain与DeepMind合并为Google DeepMind,正在开发对标GPT-4的多模态模型,项目代号“Gemini”(双子星)。
关于个人的AI助理,Google给了你四种形态:对话式的Bard、办公软件包Duet AI、加强版Google搜索,以及私人助理Tailwind。
对于公司与开发者,Google Cloud为Vertex AI增加了三种新模型。
Google的AI价值观:果敢和责任
The last thing:Pixel系列产品更新了Google又要做平板电脑。
5月10日,一年一度的Google I/O全球开发者大会如期在山景城召开。上一年的大会主题全是硬件:从手机、降噪耳机到AR 眼镜、Watch手表,但今年则几乎都是AI——这在所有人的意料之中。
这股AI新浪潮自去年12月由OpenAI的ChatGPT发起,再由微软推波助澜,曾一度让自视AI领头羊的Google措不及防。今年3月,Google为应对ChatGPT,着急发布了聊天机器人Bard,但因为表现不佳,股价一度跌掉千亿美元。不过,作为过去十年AI业内的话事人、Transformer模型的发明者、硅谷AI人才的黄埔军校,Google经过几个月的重整旗鼓,势必要在这一年度大会上找回面子。
除了发布内容大换血,这一次Google的发布风格也有显而易见的改变。它对AI落地的思路变得更加全面、完整了,最重要的是,它没有再保持高高在上的姿态,而是反反复复用各种贴近生活的使用案例来展示AI的潜力——这正是ChatGPT走红的关键。
(图片来源:A Survey of Large Language Models
https://arxiv.org/abs/2303.18223)
基础模型:
PaLM2只是Google AI的现在
多模态的Gemini(双子星)才是未来
时隔一年,Google推出了新一代语言大模型PaLM2。“得益于在科学主题上做了更广泛的训练,PaLM2 在逻辑和推理方面更强大,”Google首席执行官桑达尔·皮查伊(Sundar Pichai)在演讲中说,“它接受了100种语言的文本训练,这让它理解能力更好,生成的结果更加精确。”
(图注:PaLM2模型有四种大小不同的尺寸)
相较于前一代模型:
· PaLM2在“多语种”方面改变最大,因为它在100种语言的多语言文本上接受了“更加严格的训练”。
· 其次是推理能力,PaLM2数据更加广泛地覆盖了科学论文、带有数学表达式的网页,以提高逻辑、常识推理和数学能力。
· 最后是写代码能力,Google使用了大量源代码数据训练新模型,包括Python、JavaScript、Prolog、Fortran和Verilog等在内的代码都是PaLM2训练的一部分。作为对照,一代模型PaLM几乎不会写代码。不过,与GPT4相比,PaLM2的代码能力仍然不够有竞争力。
同时,PaLM2不再像前任那样只是一个单一的模型,而是可以根据用户需求和使用场景做定制化调整。它拥有四种不同尺寸,Google以动物主题从小到大命名为Gecko(壁虎,3.3B)、Otter(水獭,6.08B)、Bison(野牛,8.95B)和Unicorn(独角兽,14.7B),其中最小的Gecko甚至可以在手机上离线运行,每秒能处理20个token(16个左右单词)。
此外,PaLM2在医学和信息安全两个垂直场景有特殊微调,分别名为Med-PaLM2和Sec-PaLM2,例如Med-PaLM2就具有理解X光片的特殊能力。
(图注:Med-PaLM2在医学领域的应用)
PaLM2可以说是目前Google AI生态中最核心的底层能力之一,例如聊天机器人Bard就是它来支撑的。但PaLM2只是基于语言数据训练的大模型,无法满足Google众多产品需求,因此皮查伊也表示,下一代的多模态模型Gemini(双子星)已经在开发中了。
前不久,Google Brain与DeepMind宣布合并成立的Google DeepMind将负责开发Gemini。这两个团队一直都是Google最重要的AI开发力量,贡献了Transformer、TensorFlow、AlphaGo、AlphaFold这些鼎鼎大名的产品。其中,Google Brain源自内部孵化,过去一直是功勋老将Jeff Dean负责;而DeepMind则来自收购,继续由创始人戴密斯·哈萨比斯(Demis Hassabis)管理。
过去分成两个团队独立作战,体现了一种赛马思想,但现在受迫于微软与OpenAI的压力,二者不得不捏合到一起。此次合并后,Jeff Dean担任新部门的首席科学家,而哈萨比斯担任CEO,两人分别同时向皮查伊汇报。在这个背景下,Gemini(双子星)这个名字显得有些微妙。
Bard、Duet AI、新版Google搜索,
以及有趣的Tailwind
——Google为个人助理提供了AI组合拳
对于个人的AI助理到底长什么样子,科技圈还没有统一的解决方案。微软有自己推出的结合Office办公软件的Copilot,也有继续独立运行的ChatGPT,还有结合New Bing搜索的Bing Chat。
对此,Google的应对也简单直接,那就是“我全都要”。你完全可以把Bard对应成ChatGPT,Duet AI对应着Copilot,新版Google搜索对应着New Bing。它们能做的事情大同小异,但是交互方式上各不相同:
·Bard是聊天机器人
它不会主动出现。当你有问题时就可以向它提问来寻求解决,包括修改代码、生成图片,甚至为你报考大学提供各种建议。在演示中,它能够以文字方式回复你关于大学选专业的建议,并且生成这些大学在地图上的位置图片,最后还可以把这些信息整理成图表。
·Duet AI是工作时的助理
它需要结合Google Workspace来使用,当你需要帮助时,点击软件角落处的按钮就能够唤醒它。例如当你用Google文档写招聘信息时,只需要告诉Duet AI你的招聘需求,它就能够为你生成招聘模板,你可以直接将其插入到文档中。再例如,使用Google幻灯片时,如果要求Duet AI生成演讲稿,它就能够根据幻灯片的内容提供相应的演讲大纲。
(图注:Duet AI现场演示上下文写作能力)
· 新版Google搜索是所有AI产品中交互方式最显眼也最直接的。
当你搜索信息时,它会直接在搜索结果的最前面生成基于你搜索关键词产生的文本。例如当你搜索“情侣带着狗 北京9月景点推荐”时,虽然你并没有输入完整的句子,但新版Google搜索能够理解你在寻求旅行建议,于是它会基于网络上的内容,生成北京各个景点的推荐信息,并指出哪些景点是允许携带宠物的。
加总在一起,Google今天发布的PaLM2支持25个Google产品。目前,Bard已经在180个国家和地区开放使用,支持英语、日语和韩语,未来将进一步支持40种语言。而Duet AI与新版Google搜索还在测试中,都需要申请排队进入候选名单,并且前者还需要拥有Workspace账号,后者仅限美国用户试用。
除此之外,Google还宣布了一个特别的实验性项目Tailwind。在演讲介绍中,这是一个真正的私人助理,它的一切信息来源于你提供给它的内容。
你可以把你的读书笔记、你写过的文章、你读过的书等提供给它,在学习这些内容后,它就能够基于提供的内容系统性地回答你的问题。
Google表示,这款产品的目标用户包括需要写论文的大学生、写文章的作家、参加财报电话会议的金融分析师或者是受理案件的律师。同样,目前这款产品也只接受美国用户申请试用。
Google云业务新增3个基础模型和强化学习能力,希望至少不要被微软比下去
李彦宏说生成式AI是云业务的“Game Changer”,Google也认同这一点——尤其面对微软Azure的强势攻力。
2022年三季度全球云计算基础设施市场份额中,亚马逊AWS占比34%,微软Azure占比21%,Google Cloud占比11%。经过前几年的突飞猛进,各家公司云业务增速已逐渐放缓,而今年年初,微软火速与OpenAI签订了合作协议,Azure已成为OpenAI的独家云供应商。
此次发布会上,Google宣布,为旗下的机器学习平台Vertex AI增加新的能力,包括三个基础模型Codey、Imagen和Chirp,以及强化学习RLHF功能。
(图注:机器学习平台Vertex AI新增的基础模型之一Codey)
Codey是一个生成代码的模型,它能够实时生成代码、给出优化建议,目前已经支持20多种编码语言;Imagen是图像生成模型,并且可以用自然语言对图像做微调;Chirp是一个语音转文本的模型,它可以实时生成字幕,支持上百种语言。Google还宣传自己是首个提供人类反馈中强化学习(RLHF)功能的机器学习平台,企业用户可以对所有模型做定制化的提升。
此外,就像前面提到的私人助理Tailwind,Google也为企业用户提供了类似的能力。企业可以将各种数据、文档交给AI处理,从而实现为每个企业定制的搜索引擎。Google强调这些数据是安全的,只有企业本身有权限访问。
三款Pixel硬件,好久不见的平板电脑
与首次亮相的折叠屏手机
主题演讲的最后,Google照例公布了3款新设备,分别是中端手机Pixel 7a,高端手机Pixel Fold和平板电脑Pixel Tablet,都搭载了最新的Tensor G2芯片。其中,Pixel 7a定价499美元,现货发售;Pixel Fold折叠屏手机定价1799美元,今天开放预订,下月发售,免费送Pixel Watch手表。得益于Google软硬一体的设计思路,Pixel是所有Android手机中最先体验到Google AI技术的,包括魔法般的图片编辑、实时的录音转文字等功能。Google宣称自己是当前增长最快的Android手机设备制造商。
值得一提的是最新的Pixel Tablet。上一次Google发布平板电脑还得追溯到2018年推出的Pixel Slate,不过这款产品采用的是ChromeOS系统,销量惨淡到Google一度宣布不再推出平板电脑;而Google的上一款Android系统平板电脑是2015年的Pixel C,那一年苹果推出了首款iPad Pro。
(图注:Pixel Tablet)
平板电脑早就不是个好生意了。自从2014年达到出货量顶峰后,这些年虽然有涨有跌,但平板电脑再也没能在一年卖出2.3亿台。在整个平板电脑市场中,iPad销量占据1/3以上的份额,并且拿走了行业绝大部分的利润。那么Google为何要在此时选择重新入局?或许我们可以从Google对Pixel Tablet的定位中看出端倪。
与苹果对iPad创意型生产力工具的定位相反,Google对于这款平板电脑的定位是家庭中枢,你既可以把它看作一台带着显示器的智能音箱,也可以把它看成一台连着底座的平板电脑。为了更好地让你把它放在家里,Google专门为它设计了一款充电音响底座,而且只要你买平板电脑,底座就免费送给你。
在演示视频中,Google展示了人们可以用它来视频通话、投屏看剧,以及控制智能家居。为了更好适应家庭场景,它还有方便的多用户功能,并支持指纹快速切换,一切的一切都服务于家庭。相比于最便宜也要近500美元的iPad,这还不算键盘和手写笔的支出,Pixel Tablet 499美元的定价看起来友善得多。
成为每个家庭的智能终端是科技巨头们经久不衰的野望,过去有带着Xbox的微软,后来有带着Echo的亚马逊,它们的战略都很难称得上成功,现在又来了带着Pixel Tablet的Google,这一次有着更聪明的AI加持,Google的赢面不知道会不会大一点——至少苹果到现在还没有行动起来,ChatGPT发布之后,苹果在新的AI范式领域几乎是失声的。
对于AI的担忧,Google提出要
果敢(Bold)而负责(Responsible)
AI的伦理问题再次被强调。
“虽然两者之间似乎存在天然的紧张关系(指果敢和负责),但我们认为,有效地应对这种紧张关系不仅是可能的,而且实际上是至关重要的,”Google技术与社会高级副总裁James Manyika在大会上说道,“保持长期果敢的唯一方法是从一开始就肩负责任。”
这并不令人感到意外,在主题演讲AI部分的最后,Google决定以阐述价值观作为结尾。一方面是这一波AI的潜力前所未有的强劲,越来越多人对此感到担忧;另一方面,Google曾经吃过苦头,就在5年前的I/O大会上,皮查伊因为介绍语音助理Duplex时打电话模仿人类“欺骗”店员订餐而饱受批评。
James Manyika表示,Google做了多项努力来减少AI可能造成的负面影响。例如在用户使用Imagen生成图片时会同时生成关于这张图片的元数据,里面包含了这张图片是由谁、通过何种方式生成的,以通过这种方式防止有人恶意伪造虚假图片。James Manyika还展示了一个通用翻译工具。该工具可以将一段演讲视频通过文本翻译、语音生成、口型匹配等AI能力,让演讲者“换一种语言”。这类技术很容易被用来伪造视频,因此Google只会授权给特定机构使用。
但涉及模型的细节,Google也不再如以前开放。阐述PaLM2的论文中,Google再次强调,“我们发现数据的构成是最终模型的关键组件。”但这篇长达91页的论文里,Google没有提供PaLM2是如何构建任何信息的,没有公布PaLM 2的参数,也没有透露训练语言中的英文预料占比、非英文预料占比。
可以确定,从语言大模型变成产品——甚至商品,而不仅仅是一项研究——以来,我们来到了一个转折点:有盈利需求的公司都开始变得越来越不透明。这是好事还是坏事,富有争议。
总之,在OpenAI的加持下,微软在PC端的AI化上先行了一步,Google看起来想在移动端来个截击,但基础模型的差距仍难以忽视。
注:文中插图来源于Google I/O大会直播截图与arXiv网站
-END-
新皮层New New Thing
我们是一个诞生于GPT浪潮中、由《第一财经》YiMagazine孵化的全新内容IP。
和每一位关心技术、关照人的命运的读者一样,我们希望在这个有史以来不确定性最高的时代,更好地理解快速变化的科技世界,也更好地理解生而为“高级智能”的我们自己。在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与“智能”相关的议题。请注意,我们说的是智能,不只是AI。
喜欢就关注我们吧,记得“设为星标”哦~
接下来将更新:
王小川专访
谁该为生成式AI的内容负责
……
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
识别下图二维码,
即可购买《第一财经》杂志2023年5月刊
微信扫码关注该文公众号作者