教训惨痛!谷歌如何从AI老大哥一步步跌落神坛?
新智元报道
新智元报道
【新智元导读】谷歌早已成为部署高度专业化AI任务模型的专家,但当涉及到大动作时,停留在舒适圈让他们得到了惨痛的代价。
谷歌肠子都悔青了。
多年来一心一意崇拜的VR,目前看来是个假神。
现在眼看着对手微软和OpenAI凭ChatGPT赚足了眼球,谷歌赶忙转换战略,加速AI的研发。
讽刺的是,这一切之所以发生,是因为谷歌此前笃定地认为,自己已经垄断了AI的市场。
谷歌确实有理由这样认为。
在2017年,谷歌的研究人员发布了著名的论文「Attention is all you need」,引入了Transformer的概念,并极大地提升了机器学习模型的潜在能力。
要概括Transformer巨大的影响力,只要说这一句话就够了:它就是GPT中的「T」。
你可能会问:这么好的东西,谷歌会为什么免费开源呢?
大型私人研究机构过去常常被批隐瞒自己的工作,不过这几年,开源已成一种趋势。
因为,这是一场事关声望的游戏,也是对研究人员的让步——他们更希望雇主别把自己的光芒掩盖起来。
当然,这其中也有傲慢的成分:作为这项技术的发明者,谷歌怎么可能不是它最好的利用者呢?
后来的故事,我们都知道了。
这股ChatGPT热,来得猝不及防。
学会理解和利用一种新工具,都需要时间。现在,每家大型科技公司都在探索,AI的新时代会带来什么,而它们为此需要做什么。
而做出ChatGPT基础架构Transformer的谷歌,肠子都悔青了。
可以理解,谷歌不想过早地将搜索与他们现有的半生不熟的通用LLM模型合并,来宰杀金鹅。他们已经成为部署高度专业化的AI任务模型的专家,这些模型可以完成一两件事。
但当涉及到大动作时,他们舒适的位置让他们背上了惰性。
所以谷歌垮台了吗?当然没有,在不久的将来,它仍将大家默认的一家利润丰厚的大科技公司。只是看起来有点好笑。
不断改进Assistant,有点徒劳
这几年里,它在设计AI计算硬件方面取得了重大进展,为开发人员构建了有用的平台,来测试和开发机器学习模型,并发表了大量论文,从模型的微调到语音合成。
谷歌首席执行官 Sundar Pichai于2018年5月8日在Google I/O 2018大会上发表主题演讲
但是,这家公司也存在一个严重的问题。
不少人都从谷歌员工和其他业内人士那里听到过这样的轶事——谷歌的运作方式太封建了。这里似乎有一种约定俗成的观点,即让项目在现有产品(如地图或助手)的支持下运转,才是一种可靠的挣钱方式。
因此,尽管公司里已经囤积了许多世界上最优秀的AI研究人员,但他们的才能似乎只能受困于企业战略的轨道。
这样做的结果是什么?让咱们来看看下面这个时间表。
2018年,谷歌的成果是改进了的Google Assistant flow、Photos(比如为单色图像着色)、带有「视觉优先版助手」的智能显示器(有人见过吗?)、地图助手、AI辅助的Google新闻和MLKit。
Google Assistant即将登陆Google地图
2019年,谷歌展示了更出名、尺寸更大的智能显示器、AR搜索结果、AR地图、Google Lens更新、网络Duplex(还有人记得Duplex吗?)、可以在本地完成更多工作的压缩版Google Assistant、Waze中的助手、驾驶模式中的助手、实时字幕、现场转播(语音识别)以及一个更好地了解语言障碍人士的项目。
当然,可以肯定地说,其中某些产品很棒!
然而,它们中的大多数只是一个现成的东西,区别是得到了AI的推动。
谷歌推出ML Kit,这是一个SDK,可以轻松地将AI添加到iOS和Android应用程序
现在再回想起来,很多人都会感觉到,谷歌的确有点畏缩。
像谷歌这样的大公司,本应该是能顺应趋势、推动潮流的。
谷歌推出了Duplex,这是一种基于人工智能的客户服务工具,旨在帮助小型企业(如餐馆和美发沙龙)接听更多电话、回答常见问题并安排预订
而在2019年2月,OpenAI有这样一条新闻:《OpenAI构建了一个非常好的文本生成器,但因为太危险,所以不能发布》。
这条新闻里讲的不是GPT-3,不是GPT-3.5……而是GPT-2。
2020年,谷歌制作了一个由AI驱动的Pinterest克隆,然后在12月解雇了Timnit Gebru——AI伦理领域的主要发声人之一,因为他写了一篇论文,指出了这个技术的局限性和危险。
虽然如今我们看到了ChatGPT的大红大紫,但其实当初OpenAI的联合创始人Sam Altman也曾不得不亲自压制对GPT-3的炒作,因为它超过了可承受的水平。
而在2021年,谷歌的大语言模型LaMDA首次亮相,但谷歌并没有真正把它推向市场。据悉,除了减少Assistant抛出的错误之外,谷歌仍然在寻找让它存在的理由。
而OpenAI的2021年是以DALL-E开始的,这个文本到图像模型很快变得家喻户晓。
OpenAI证明了,通过CLIP等系统,LLM不仅可以执行语言任务,还可以充当通用的解释和生成引擎。
2022年,谷歌干的事情就是对Assistant的更多调整、更多的智能显示器、更多的AR 地图,以及花1亿美元收购AI 生成的个人资料图片(收购Alter)。
同一年,OpenAI在4月发布了DALL-E 2 ,在12月发布了ChatGPT。
或许在2022年初的某一刻,当谷歌高管睁开眼睛的时候,被眼前的东西吓坏了。
可以想象,疑惑的谷歌高管们急忙发送电子邮件,询问为什么一些有活力的初创公司正在围绕着OpenAI运行。
证据是,Imagen在DALL-E 2发布一个月后就退出了,实际上,退不退出也没什么区别,就像谷歌公布的其他AI研究一样,任何人都无法测试它,更不用说连接到API了。
然后,Meta在9月发布了Make-A-Video后,谷歌在一周之后就以Imagen Video做出回应。然后Riffusion在生成音乐方面掀起了波澜,一个月后,MusicLM就出现了(同样的,我们仍然不能用它)。
但可以肯定,谷歌这样对别家亦步亦趋,正是因为ChatGPT带给谷歌领导层的焦虑,让他们只能全力以赴。
但其实内部人士都知道,ChatGPT与谷歌投资了十年的助理产品截然不同,后者其实是假装出来的伪AI(实际上只是一组API的自然语言前端罢了)。
但谷歌被生存竞争吓到了。
时势造英雄
但搜索引擎,成功地将微软对创新的需求与大规模语言模型的核心竞争力结合了起来,进而造就了最新的GPT模型与必应和Edge的整合。
看到这一点的谷歌显然是急了,于是抢在微软发布ChatGPT版必应的前一天,试图用一篇空洞的博文来吸引眼球。
但由于发布得过于匆忙,以至于在两天后的「搜索和人工智能」活动中,谷歌甚至都没怎么提到有关Bard的内容。
此外,用来宣传Bard的图片里,还包含一个非同小可的错误:詹姆斯-韦伯太空望远镜「首次拍摄了太阳系外行星的照片」。显然,这是错的。
更令人震惊的是,谷歌内部竟然没人发现,甚至没人关心这个问题。
当然,ChatGPT也有自己的问题。
但谷歌仓促出手,并在如此明显地被绊倒。恰恰说明,即使是在有限的、实验性的水平上,谷歌也缺乏准备,更不用说像微软这样已经开始在全球推广了。
谷歌还是那个谷歌
当然不是,在不久的将来,它仍将是我们默认的搜索引擎,以及一家利润丰厚的公司。
但从随后的股价大跌上也能看出,投资者的信心已经被动摇了。
事实证明,谷歌在过去几年里,都没有进行任何有意义的创新。而这可能并不是出于智慧,而是出于自傲。
不过,当新的技术尚未证明自己能够像所有人想的那样有价值时,我们也无法做出过多的预测。
微信扫码关注该文公众号作者