AI不应该把所有桌子都掀了

2024-07-09 02:07

作者｜玄宁

大厂的AI正踏入另一条河流

今天关于大模型的狂热里充满了各种误解。

其中最深入人心的一个，就是“AGI” （Artificial General Intelligence，通用人工智能）马上就要实现，而实现的方式是由一个全知全能的模型，解决你自己现在都不知道还需要去解决的某个无比重要的任务。实现的载体就是一个比人还聪明的对话框。

因此，一切都需要被立刻颠覆、马上重来。

这可以是个令人期待的未来，但并不是马上就要发生的事情。最近的一系列事情都在让人们回过神来。比如作为标杆的GPT-5一再延迟，如扎克伯格首次明确了对ChatGPT类单一全能AI产品的拒绝；比如一份被称为“AI墓地”的名单在网上热传，收录了738个已死去或停止运行的AI项目。

与此同时，几个重要的AI产品，都在体现另一种浪潮的方向：不是推倒重建，而是在已有大量用户的系统里纳入大模型能力，借此大幅提升用户体验；不是无中生有，而是用大模型把已积累的资源真正调用起来，更好服务用户原本就存在的需求。

上个月的苹果WWDC 发布会在第一时间被认为令人失望，很大程度就是因为外界对苹果发布一个全知全能模型的预期太高了，但接下来股价高涨等市场的反馈扭转了人们的判断，也体现了人们对苹果所代表的这条AI路线的重新思考。

苹果没有自己的全能模型，而是建设了一个三层的模型体系：本地模型用于处理简单任务，私有云端模型来确保加密和安全，第三方的模型提供更多的能力。这个体系是为了它复杂的生态系统而建，为了增强它自己已有的能力而设，目的是提高用户在已有需求上的体验。

这也是为什么后来大家明白，OpenAI在里面并不是一个吃掉苹果的角色，哪怕ChatGPT是目前最强的大模型产品，也无法“接住”苹果的用户需求，依然只有苹果能服务他们。

再往前Google在年度大会Google I/O上的思路同样如此，抛去在OpenAI压力下应对性的“期货”产品Astra，它更多的发布都是在把Gemini融入它已有的亿万级用户产品线中，而非对一个单独的全新Gemini app本身的更新。

在最近一些国内国民级产品的更新上，也有相似趋势。在刚结束的世界人工智能大会（WAIC），支付宝重点展示了最新的AI应用——集成在支付宝App里的智能助理，你可以在支付宝首页下拉找到它，过往多次点击才能完成的如订票、点餐、问诊挂号等服务，用说话的方式就能更简单地办好。

与那些充满科幻片色彩、但迟迟无法体验的场景不同，苹果在发布会上举的例子是，“假设我的一个会议被重新安排到下午晚些时候，我想知道这是否会影响到我按时参加我女儿的演出”，在Siri后续更新后这些功能就可以实现。

相似的，支付宝同样关心AI能帮人解决生活问题，在智能助理展示的已实现的功能中，就包括“帮我点一杯星巴克的大杯冰美式”、“帮我交200块钱话费”、“上个月我花了多少钱”、“帮我查明晚七点后从上海飞北京的航班”等服务。

今年4月开始，支付宝就在首页测试这个全新的智能助理，它不是侧重聊天交流的“AI原生应用”，更像是融入支付宝平台生态的AI生活管家，不只是“有脑有嘴能对话”，同样“有手有脚能办事”。

“生活搭子”之外，也有“工作搭子”—— 今年1月，钉钉上线的“AI超级助理”，就成了可调用钉钉几乎所有功能的入口。更早之前，微软同样将Copilot（AI助手）嵌入Word、Excel等旗下所有的办公应用中。

这些都是典型平台或App的自我改造。他们没有抛下原有亿万用户的日常需求，它们不因AI大模型出现而改变，但新技术会使需求的满足变得大不一样。

这种对产品的自我重塑，从用户需求出发，看起来不那么“炫技”，甚至是个下“笨功夫”的活儿，需要既有生态保障，甚至是系统性二次开发。

比如苹果智能需要基于大模型，在安全的环境里对用户的个人信息进行处理，从而进一步“判断用户的日程是否冲突”。支付宝智能助理要完成订票这样的任务，背后是系统性的生态和技术支撑形成闭环，需要在隐私保护基础上对用户个人信息进行个性化的处理。

这些公司往往也都是在隐私和数据保护上最在意的公司，因此你会看到相关功能发布时，都带着“枯燥”的对数据隐私的配套技术保障的介绍，它们当然没有一个斯嘉丽约翰逊口音的AI化身吸引眼球，但对在日常生活里依赖这些服务的人们是至关重要的。

AI要融入用户的生活场景，提供更有人情味的服务。至于大模型本身，则无需喧宾夺主，非要出来把一切桌子都掀了，它完全可以躲在最后面。

“让AI像扫码支付一样简单”是一个很形象的说法。一个二维码简化了许多繁琐的流程，同样让诸多技术上的复杂革新隐藏在了后面。支付宝提出的这句话，说清了许多国民级应用使用大模型的新方向，也是通往“AGI”的另一条路——不止是All in AI，更应该AI in All。

大模型落地的三股浪潮

诸多国民级产品的“不谋而合”背后，是把大模型放在更长的技术发展视野里来看待的产物。

从技术的演进来看，大模型的突破，可以被认为是机器智能漫长发展历程里的一个全新阶段，而非自成一体的某种“创世纪”时刻，抛弃过去、颠覆一切。

某种程度上，我们可以把互联网基础设施的成熟、因此而产生的大量数据及数据处理技术、因数据丰富而进步的算法模型、进一步诞生的推荐算法等，以及移动互联网的最终繁荣，都看作一整个不间断进程里的组成部分，而今天大模型的爆发，则提供了彻底释放过往积淀技术和数据资产的能力。

这也意味着，大模型是个十分重要但依然独木难支的“大脑”，它需要与其他重要技术一起发挥作用，需要一整个系统来支撑，才能帮助这个系统完成升级。

这与人们一开始的尝试已经很不同。在如何把大模型通过应用落地的事上，短短不到两年时间已经有了三股浪潮。

第一波浪潮是AI聊天应用。但人们总是忘记ChatGPT是个“意外”的产物，最初只是用来展示模型已有能力的一个demo，OpenAI自己也没有准备好，没人预料到它引发的一系列变革。

因此在最初的第一个阶段，震惊的人们把一切幻想都寄托在一个神奇的对话框上——既然它可以表现出智能，那么我跟他对话就应该能解决一切问题。于是，各种大模型以一个对话框的形态变成产品，纷纷推出。

第二股浪潮，则是希望通过简单的Prompt等方法，来把这个对话框变成某些垂直场景的专家，进而来重建对应的垂直应用。GPT store等就是这个阶段的产物。

现在各个大厂正理性迈入第三阶段：基于前两个阶段的尝试，它们发现想要单纯依赖一个对话框就重塑自己有些想当然，大模型的落地需要和已有的系统进行融合，利用已有的技术和资源来服务用户，而不是彻底重新来过。

看一看微软的一系列尝试，就能更好地理解这样的趋势。作为OpenAI的最大推手，微软在ChatGPT出现后，也第一时间希望通过一个万能对话框来拯救Bing，成为未来AI时代的入口。

然而ChatGPT加持的Bing，在争夺市场份额上效果一般。之后微软快速拥抱了OpenAI的GPTs理念，在它提供给B端用户的Copilot Pro服务中第一时间集成了GPT store的功能，但就在3个月后，它又决绝地下线了这个功能。

最终，微软真正一直延续下来的AI战略，还是把大模型融入已有的产品和生态中——从Office Copilot，到最新的AI PC里最明星的产品Recall，都是聚焦让大模型在已有的复杂的资源里挖掘潜能，进而真正落地。

这个技术路线现在被很多人定义为“AI Agent”（智能体），一个明显的共识是，AI Agent越来越多地强调大模型能智能调用现有工具、服务和计算资源的能力。

大模型不是一切，但它能真正智能地调用一切。因此，它也需要一切。而这个“一切”在哪里呢？

在那些已融入生活的国民级产品和它已服务的万千复杂场景里。

苹果展示的“大模型增强版Siri”可以带来的服务，正是基于它各种软硬件结合的系统级调用能力。支付宝智能助理在做的，同样是一个系统级工程。

以支付宝智能助理正在测试的“智能点单”功能举例：当用户说出“请给我点一杯星巴克的大杯冰拿铁”，大模型先让AI具有屏幕感知能力，能“看到”小程序页面，再通过仿真执行能力，快速完成所有过去需要用户点击的步骤，用户确认并付款后，就能到附近的线下门店取咖啡了。

支付宝没有选择简单调用数据接口，而是选择这一名为ACT（Transformer for Actions）的智能服务技术，正是希望未来能通过AI，连接背后数百万的小程序，乃至平台原有的数千种数字生活服务。

我们可以想见，未来的智能助理可以用一句话就能帮我们订票、挂号、制定出门行程……AI也能从“通用”的大模型，变成“有用”的小工具，服务更多的普通人。

可以看到，无论是苹果或微软，还是支付宝或钉钉，国内外的平台产品，都不再执迷于以一种上帝视角去创造全新的需求。

它们决定让大模型从幻想的全能对话框里走出来，让AI融入生态，也让AI落入生活——这也许并不前瞻，但人人可见的大模型落地路径，反而能推动这个技术的真正潜能开始逐步兑现。

点个“在看”，再走吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章