Redian新闻
>
Google发布二代大模型,但与GPT-4仍有差距

Google发布二代大模型,但与GPT-4仍有差距

公众号新闻

「大公司最新动态,只在值得关注时更新」

记者|王杰夫
编辑|吴洋洋

Key Points


Google推出第二代语言大模型PaLM2。一代PaLM只会英文等少数语言和简单推理,二代PaLM2掌握了多语种,还学会了写代码。



Google Brain与DeepMind合并为Google DeepMind,正在开发对标GPT-4的多模态模型,项目代号“Gemini”(双子星)。



关于个人的AI助理,Google给了你四种形态:对话式的Bard、办公软件包Duet AI、加强版Google搜索,以及私人助理Tailwind。



对于公司与开发者,Google Cloud为Vertex AI增加了三种新模型。


Google的AI价值观:果敢和责任


The last thing:Pixel系列产品更新了Google又要做平板电脑。

5月10日,一年一度的Google I/O全球开发者大会如期在山景城召开。上一年的大会主题全是硬件:从手机、降噪耳机到AR 眼镜、Watch手表,但今年则几乎都是AI——这在所有人的意料之中。


这股AI新浪潮自去年12月由OpenAI的ChatGPT发起,再由微软推波助澜,曾一度让自视AI领头羊的Google措不及防。今年3月,Google为应对ChatGPT,着急发布了聊天机器人Bard,但因为表现不佳,股价一度跌掉千亿美元。不过,作为过去十年AI业内的话事人、Transformer模型的发明者、硅谷AI人才的黄埔军校,Google经过几个月的重整旗鼓,势必要在这一年度大会上找回面子。

 

除了发布内容大换血,这一次Google的发布风格也有显而易见的改变。它对AI落地的思路变得更加全面、完整了,最重要的是,它没有再保持高高在上的姿态,而是反反复复用各种贴近生活的使用案例来展示AI的潜力——这正是ChatGPT走红的关键。



图片来源:A Survey of Large Language Models

https://arxiv.org/abs/2303.18223)



基础模型:

PaLM2只是Google AI的现在

多模态的Gemini(双子星)才是未来


时隔一年,Google推出了新一代语言大模型PaLM2。“得益于在科学主题上做了更广泛的训练,PaLM2 在逻辑和推理方面更强大,”Google首席执行官桑达尔·皮查伊(Sundar Pichai)在演讲中说,“它接受了100种语言的文本训练,这让它理解能力更好,生成的结果更加精确。”


(图注:PaLM2模型有四种大小不同的尺寸)

相较于前一代模型:

· PaLM2在“多语种”方面改变最大,因为它在100种语言的多语言文本上接受了“更加严格的训练”。

· 其次是推理能力,PaLM2数据更加广泛地覆盖了科学论文、带有数学表达式的网页,以提高逻辑、常识推理和数学能力。

· 最后是写代码能力,Google使用了大量源代码数据训练新模型,包括Python、JavaScript、Prolog、Fortran和Verilog等在内的代码都是PaLM2训练的一部分。作为对照,一代模型PaLM几乎不会写代码。不过,与GPT4相比,PaLM2的代码能力仍然不够有竞争力。


同时,PaLM2不再像前任那样只是一个单一的模型,而是可以根据用户需求和使用场景做定制化调整。它拥有四种不同尺寸,Google以动物主题从小到大命名为Gecko(壁虎,3.3B)、Otter(水獭,6.08B)、Bison(野牛,8.95B)和Unicorn(独角兽,14.7B),其中最小的Gecko甚至可以在手机上离线运行,每秒能处理20个token(16个左右单词)。


此外,PaLM2在医学和信息安全两个垂直场景有特殊微调,分别名为Med-PaLM2和Sec-PaLM2,例如Med-PaLM2就具有理解X光片的特殊能力。


 (图注:Med-PaLM2在医学领域的应用


PaLM2可以说是目前Google AI生态中最核心的底层能力之一,例如聊天机器人Bard就是它来支撑的。但PaLM2只是基于语言数据训练的大模型,无法满足Google众多产品需求,因此皮查伊也表示,下一代的多模态模型Gemini(双子星)已经在开发中了。

 

前不久,Google Brain与DeepMind宣布合并成立的Google DeepMind将负责开发Gemini。这两个团队一直都是Google最重要的AI开发力量,贡献了Transformer、TensorFlow、AlphaGo、AlphaFold这些鼎鼎大名的产品。其中,Google Brain源自内部孵化,过去一直是功勋老将Jeff Dean负责;而DeepMind则来自收购,继续由创始人戴密斯·哈萨比斯(Demis Hassabis)管理。


过去分成两个团队独立作战,体现了一种赛马思想,但现在受迫于微软与OpenAI的压力,二者不得不捏合到一起。此次合并后,Jeff Dean担任新部门的首席科学家,而哈萨比斯担任CEO,两人分别同时向皮查伊汇报。在这个背景下,Gemini(双子星)这个名字显得有些微妙。



Bard、Duet AI、新版Google搜索,

以及有趣的Tailwind

——Google为个人助理提供了AI组合拳


对于个人的AI助理到底长什么样子,科技圈还没有统一的解决方案。微软有自己推出的结合Office办公软件的Copilot,也有继续独立运行的ChatGPT,还有结合New Bing搜索的Bing Chat。

 

对此,Google的应对也简单直接,那就是“我全都要”。你完全可以把Bard对应成ChatGPT,Duet AI对应着Copilot,新版Google搜索对应着New Bing。它们能做的事情大同小异,但是交互方式上各不相同:

 

·Bard是聊天机器人

它不会主动出现。当你有问题时就可以向它提问来寻求解决,包括修改代码、生成图片,甚至为你报考大学提供各种建议。在演示中,它能够以文字方式回复你关于大学选专业的建议,并且生成这些大学在地图上的位置图片,最后还可以把这些信息整理成图表。

 

·Duet AI是工作时的助理

它需要结合Google Workspace来使用,当你需要帮助时,点击软件角落处的按钮就能够唤醒它。例如当你用Google文档写招聘信息时,只需要告诉Duet AI你的招聘需求,它就能够为你生成招聘模板,你可以直接将其插入到文档中。再例如,使用Google幻灯片时,如果要求Duet AI生成演讲稿,它就能够根据幻灯片的内容提供相应的演讲大纲。


 (图注:Duet AI现场演示上下文写作能力)


· 新版Google搜索是所有AI产品中交互方式最显眼也最直接的。

当你搜索信息时,它会直接在搜索结果的最前面生成基于你搜索关键词产生的文本。例如当你搜索“情侣带着狗 北京9月景点推荐”时,虽然你并没有输入完整的句子,但新版Google搜索能够理解你在寻求旅行建议,于是它会基于网络上的内容,生成北京各个景点的推荐信息,并指出哪些景点是允许携带宠物的。

 

加总在一起,Google今天发布的PaLM2支持25个Google产品。目前,Bard已经在180个国家和地区开放使用,支持英语、日语和韩语,未来将进一步支持40种语言。而Duet AI与新版Google搜索还在测试中,都需要申请排队进入候选名单,并且前者还需要拥有Workspace账号,后者仅限美国用户试用。

 

除此之外,Google还宣布了一个特别的实验性项目Tailwind。在演讲介绍中,这是一个真正的私人助理,它的一切信息来源于你提供给它的内容。


你可以把你的读书笔记、你写过的文章、你读过的书等提供给它,在学习这些内容后,它就能够基于提供的内容系统性地回答你的问题。


Google表示,这款产品的目标用户包括需要写论文的大学生、写文章的作家、参加财报电话会议的金融分析师或者是受理案件的律师。同样,目前这款产品也只接受美国用户申请试用。




Google云业务新增3个基础模型和强化学习能力,希望至少不要被微软比下去


李彦宏说生成式AI是云业务的“Game Changer”,Google也认同这一点——尤其面对微软Azure的强势攻力。


2022年三季度全球云计算基础设施市场份额中,亚马逊AWS占比34%,微软Azure占比21%,Google Cloud占比11%。经过前几年的突飞猛进,各家公司云业务增速已逐渐放缓,而今年年初,微软火速与OpenAI签订了合作协议,Azure已成为OpenAI的独家云供应商。

 

此次发布会上,Google宣布,为旗下的机器学习平台Vertex AI增加新的能力,包括三个基础模型Codey、Imagen和Chirp,以及强化学习RLHF功能。


 图注:机器学习平台Vertex AI新增的基础模型之一Codey


Codey是一个生成代码的模型,它能够实时生成代码、给出优化建议,目前已经支持20多种编码语言;Imagen是图像生成模型,并且可以用自然语言对图像做微调;Chirp是一个语音转文本的模型,它可以实时生成字幕,支持上百种语言。Google还宣传自己是首个提供人类反馈中强化学习(RLHF)功能的机器学习平台,企业用户可以对所有模型做定制化的提升。

 

此外,就像前面提到的私人助理Tailwind,Google也为企业用户提供了类似的能力。企业可以将各种数据、文档交给AI处理,从而实现为每个企业定制的搜索引擎。Google强调这些数据是安全的,只有企业本身有权限访问。




三款Pixel硬件,好久不见的平板电脑

与首次亮相的折叠屏手机

主题演讲的最后,Google照例公布了3款新设备,分别是中端手机Pixel 7a,高端手机Pixel Fold和平板电脑Pixel Tablet,都搭载了最新的Tensor G2芯片。其中,Pixel 7a定价499美元,现货发售;Pixel Fold折叠屏手机定价1799美元,今天开放预订,下月发售,免费送Pixel Watch手表。得益于Google软硬一体的设计思路,Pixel是所有Android手机中最先体验到Google AI技术的,包括魔法般的图片编辑、实时的录音转文字等功能。Google宣称自己是当前增长最快的Android手机设备制造商。


值得一提的是最新的Pixel Tablet。上一次Google发布平板电脑还得追溯到2018年推出的Pixel Slate,不过这款产品采用的是ChromeOS系统,销量惨淡到Google一度宣布不再推出平板电脑;而Google的上一款Android系统平板电脑是2015年的Pixel C,那一年苹果推出了首款iPad Pro。


(图注:Pixel Tablet)


平板电脑早就不是个好生意了。自从2014年达到出货量顶峰后,这些年虽然有涨有跌,但平板电脑再也没能在一年卖出2.3亿台。在整个平板电脑市场中,iPad销量占据1/3以上的份额,并且拿走了行业绝大部分的利润。那么Google为何要在此时选择重新入局?或许我们可以从Google对Pixel Tablet的定位中看出端倪。


与苹果对iPad创意型生产力工具的定位相反,Google对于这款平板电脑的定位是家庭中枢,你既可以把它看作一台带着显示器的智能音箱,也可以把它看成一台连着底座的平板电脑。为了更好地让你把它放在家里,Google专门为它设计了一款充电音响底座,而且只要你买平板电脑,底座就免费送给你。


在演示视频中,Google展示了人们可以用它来视频通话、投屏看剧,以及控制智能家居。为了更好适应家庭场景,它还有方便的多用户功能,并支持指纹快速切换,一切的一切都服务于家庭。相比于最便宜也要近500美元的iPad,这还不算键盘和手写笔的支出,Pixel Tablet 499美元的定价看起来友善得多。


成为每个家庭的智能终端是科技巨头们经久不衰的野望,过去有带着Xbox的微软,后来有带着Echo的亚马逊,它们的战略都很难称得上成功,现在又来了带着Pixel Tablet的Google,这一次有着更聪明的AI加持,Google的赢面不知道会不会大一点——至少苹果到现在还没有行动起来,ChatGPT发布之后,苹果在新的AI范式领域几乎是失声的。




对于AI的担忧,Google提出要

果敢(Bold)而负责(Responsible)


AI的伦理问题再次被强调。


“虽然两者之间似乎存在天然的紧张关系(指果敢和负责),但我们认为,有效地应对这种紧张关系不仅是可能的,而且实际上是至关重要的,”Google技术与社会高级副总裁James Manyika在大会上说道,“保持长期果敢的唯一方法是从一开始就肩负责任。”


这并不令人感到意外,在主题演讲AI部分的最后,Google决定以阐述价值观作为结尾。一方面是这一波AI的潜力前所未有的强劲,越来越多人对此感到担忧;另一方面,Google曾经吃过苦头,就在5年前的I/O大会上,皮查伊因为介绍语音助理Duplex时打电话模仿人类“欺骗”店员订餐而饱受批评。


James Manyika表示,Google做了多项努力来减少AI可能造成的负面影响。例如在用户使用Imagen生成图片时会同时生成关于这张图片的元数据,里面包含了这张图片是由谁、通过何种方式生成的,以通过这种方式防止有人恶意伪造虚假图片。James Manyika还展示了一个通用翻译工具。该工具可以将一段演讲视频通过文本翻译、语音生成、口型匹配等AI能力,让演讲者“换一种语言”。这类技术很容易被用来伪造视频,因此Google只会授权给特定机构使用。


但涉及模型的细节,Google也不再如以前开放。阐述PaLM2的论文中,Google再次强调,“我们发现数据的构成是最终模型的关键组件。”但这篇长达91页的论文里,Google没有提供PaLM2是如何构建任何信息的,没有公布PaLM 2的参数,也没有透露训练语言中的英文预料占比、非英文预料占比。


可以确定,从语言大模型变成产品——甚至商品,而不仅仅是一项研究——以来,我们来到了一个转折点:有盈利需求的公司都开始变得越来越不透明。这是好事还是坏事,富有争议。


总之,在OpenAI的加持下,微软在PC端的AI化上先行了一步,Google看起来想在移动端来个截击,但基础模型的差距仍难以忽视。


注:文中插图来源于Google I/O大会直播截图与arXiv网站


-END-


新皮层New New Thing 


Hello!

我们是一个诞生于GPT浪潮中、由《第一财经》YiMagazine孵化的全新内容IP。


和每一位关心技术、关照人的命运的读者一样,我们希望在这个有史以来不确定性最高的时代,更好地理解快速变化的科技世界,也更好地理解生而为“高级智能”的我们自己。在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与“智能”相关的议题。请注意,我们说的是智能,不只是AI。



喜欢就关注我们吧,记得“设为星标”哦~

接下来将更新:

王小川专访

谁该为生成式AI的内容负责

……

 

与记者交流,可添加微信(请备注公司名称和姓名):

王杰夫 微信号: wjfsty

张司钰 微信号: helianthus351

吴洋洋 微信号: qitianjiuye

 

本文版权归第一财经所有,
未经许可不得转载或翻译。


识别下图二维码,

即可购买《第一财经》杂志2023年5月刊



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
曝PwC向Google泄露政府税改机密!Google已承认涉案Google 本周或发布新大语言模型/iPhone 16 Pro 或采用固态按键/百度旗下小度将发布智能手机精选MLE岗位 | Google、Apple 等公司持续热招!AI追踪 | ChatGPT开启四天周工作日大门,媒体再度面临生存威胁,google搜索引擎也将加入AIGoogle 版 ChatGPT 大更新!用 GPT-4 给它出的难题全都满分回答掉脑袋的事:Google Brain和DeepMind合并成Google DeepMind!!!Google内部文件首次泄漏:ChatGPT 没有护城河,开源才是大模型未来精选MLE岗位 | Apple、ByteDance、Googlel等公司持续热招!AutoGPT与GPT-4的能力涌现|投资人播客分享孩子已经成为了一匹脱缰的野马!Google新大模型赶超GPT-4/理想一季度交付量创历史新高/阿里巴巴取消首席技术官职位360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象七绝 球场不是桃花源李鸣经典语录 | 从来没有差劲的来访者,只有差劲的治疗师。Google Bard 大更新!我们用 GPT-4 给它出了 20 道题怎么开始学佛(十五)知时知量,傻坐静等美国平台责任230条款三十年荣辱:评Gonzalez v Google案【广而告之】还有留学生不知道吗?用ChatGPT订机票,竟然比Google Flight和Expedia还要便宜!重访葡萄牙(5)-王国的书香之城Google 的 AI 大计划:让大模型变小、嵌入每一个产品京东百亿补贴的首个季度,收入少了、利润多了;Google 应战微软:更小的大模型和更丰富的应用停止内耗!Google和DeepMind被ChatGPT逼急了,决定合作打败GPT-4Google 下一款 ChatGPT 竞品曝光:投入或超GPT-4,AlphaGo 成秘密武器AIGC疯狂一夜!英伟达投下“核弹”、Google版ChatGPT开放,盖茨都震惊了ChatGPT会取代Google,成为互联网的第一入口|万字深度长文王炸升级!Google 全新大模型赶超 GPT-4,Bard 全面开放,要把搜索彻底颠覆眼科医生靠做手术年入600万碾压GPT-4!谷歌DeepMind CEO自曝:下一代大模型将与AlphaGo合体云从科技「从容」大模型正式发布!现场演示,与GPT-4同台竞技正在取代Google 搜索的,不是ChatGPT复旦大学 MOSS 大模型正式开源;周鸿祎:360 员工不会被 GPT 淘汰;Google 重组 AI 研究部门|极客早知道Google 内部文件泄漏:我们和 OpenAI 都没护城河,开源可以打败 ChatGPTGPT4横空出世,互联网霸主Google跌落神坛 | 纽约客Google 疯狂的一周才刚结束,ChatGPT 下周又要大更新|Hunt Good 周报正在取代 Google 搜索的,不是 ChatGPT
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。