随着 Claude 和 Llama 模型相继进入「3」时代,本该早早提上日程的 GPT-4.5/5 却迟迟不露面。不过,别急,在大餐到来之前,一些开胃小菜已经准备好了。昨日凌晨,OpenAI 宣布将于 5 月 13 日太平洋时间 10:00 直播演示一些关于 ChatGPT 的大更新。随后,OpenAI CEO Sam Altman 引述该消息帖子称:不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些大家会喜欢的新东西!对我来说,它就像魔法一样。不是 GPT-5,不是 AI 搜索引擎,而是 AI 语音助手?为啥要特意强调新品不是 AI 搜索引擎呢?这得从最近传出的一则小道消息说起。上周,有风声传出,OpenAI 正准备推出一款 AI 搜索引擎,并且矛头直指 Google 下周即将召开的 I/O 大会,一时间让无数翘首以待的吃瓜群众迎来了久违的亢奋。遗憾的是,Altman 的帖子给这则流言的画上了终止符号,发布会的确如预测般如期举行,但 AI 搜索引擎既不是主角,甚至连配角的位置都未必能拿到。真正的主角已经在 The Iformation 的爆料中泄露了一些关键踪迹。报道称 OpenAI 下周可能会展示一种新 AI 技术:它不仅能通过声音和文字跟人交流,还能识别物体和图像,并且逻辑推理能力也比现在市面上的产品要强。这也是 Altman 一直在追求的目标,他想要开发出一种超级智能的 AI,就像是电影《Her》里的虚拟助手一样,能让 Siri 等现有的语音助手变得更有用。其语音助手能做的事情可不止一星半点,比如帮学生辅导作业,或者在需要的时候告诉你周围环境的信息,又或者翻译个标志,或者教你怎么修车。目前,这项技术已经在客服行业「攻城拔寨」。知情人士透露,新技术的音频功能可以让这些 AI 自动代理更好地理解来电者的语气,甚至还能判断他们是否在「阴阳怪气」。实际上,OpenAI 在转录音频和文本转语音等领域早有建树,无论是上个月推出的「语音引擎」(Voice Engine),还是更早些时候发布的 TTS(文本转语音)软件,都有着不俗的表现。而爆料者称,新模型将把这些功能合二为一,构建一个更懂图像和音频的多模态模型,响应速度也更快。作为 OpenAI 的最大金主,微软也考虑用该技术来提升语音助手,或者想办法让这些技术能在更小的设备上运行,比如可穿戴设备。目前尚不清楚 OpenAI 什么时候会把这个新功能开放给付费用户,但知情人士透露,OpenAI 的最终打算是将这些功能添加到免费版里。不过,由于这些模型参数规模庞大,现在只能在云端运行,并且还需要互联网连接。要让复杂的对话 AI 变得足够小,支持在设备上运行,可能还需要数月甚至数年的时间。除了备受关注的新模型,一些爆料的细枝末节同等重要。The Information 指出,得益于即将推出的定价模式,一贯「烧钱」的 OpenAI 今年预计将迎来数十亿美元的收入。如果客户通过预付费预定 Tokens,就能享受高达 50% 的折扣。这种预订方式的折扣在云计算领域很常见,像 Microsoft Azure、Google Cloud 和 Amazon Web Services 都有这样的优惠。此前,OpenAI 已经为开发者提供了一种降低成本的方法,其在 4 月份推出新的应用程序编程接口——Batch API。如果开发者愿意批量上传模型查询并等待最长达 24 小时,就能享受到更便宜的价格。一些 AI 服务器经销商曾表示,在他们的软件上运行开源模型比使用 OpenAI 的模型便宜六倍。而这种更灵活的定价,将有助于 OpenAI 可以更好地与其他模型开发人员和 AI 服务器经销商竞争。更重要的是,知情人士还透露,OpenAI 可能会在年底前完成 GPT-5 的开发并公开发布。OpenAI 的大招,或许早已埋下伏笔OpenAI 在生成式 AI 的赛道上一路狂奔,将所有的竞争对手们远远地甩在身后。去年 12 月份,Google 挟 AI 大潮而来,发布了发布当时号称史上最强大模型 Gemini 1.0。Gemini 超大杯在视频 demo 中,上至识别图像、玩石头剪刀布,下至人性化语音交流,都表现得游刃有余,但仅仅一天时间,视频就被曝出「造假」的丑闻。此后,Gemini 大模型不断迭代升级,但依然并没有达到理想的程度。直到 Gemini 1.5 Pro 的出现,除了分析图像和文本,还能一次性处理长达 9.5 个小时的音频,捕捉音频当中的语调情绪等。正如上文所说,The Information 的报道中着重提到 OpenAI 的语音助手能够听懂别人的语气。现在,OpenAI 即将发布的 AI 语音助手似乎也有意定点狙击 Google 1.5 Pro 的这项特长。对 Google 的另一重打击则潜藏在冰山之下,尽管 Altman 否认本次直播的重头戏并不是 AI 搜索引擎,但也没否认 AI 搜索引擎存在的可能性。Altman 早些时候在接受采访时说到,世界不需要另一个 Google,并对 Google 利用广告盈利的方式嗤之以鼻。现在看来,他似乎已经找到了为 OpenAI 找到一条新路。至于 OpenAI 的 AI 语音助手会是什么样子,我们现在还不得而知,但前段时间 Hume AI 向大众开放的旗下产品——同理心语音界面(EVI),给我们打了个样,其判断情绪的能力甚至被誉为可能是未来 Siri 的样子。具体可回看 APPSO 此前的文章:第一个具有情商的聊天机器人来了,这可能是未来 Siri 的样子从 EVI 的身上,我们或许也能看到 OpenAI 语音助手的雏形,那就是更通人性,更有人味。和 EVI 聊天,更接近和真人交流。不过,抱着赢家通吃的法则,OpenAI 下周推出的 AI 语音助手也很有可能将 EVI 扼杀在摇篮里。最近 AIPRM 首席工程师 Tibor Blaho 也在社交平台 X 上曝光了 ChatGPT 即将到来的功能和界面。其中,ChatGPT 的网页版将新增一个语音模式功能。这个功能会在页面顶部的导航栏添加一个语音按钮,用户可以通过这个按钮交互式地启动或结束对话。在对话进行时,系统还会实时将语音转换成文字。同时,自定义的 GPT(小部件)、模型、写作、上下文连接器、浏览和数据分析功能也一应俱全,有望为 AI 语音助手能力的涌现打好「地基」。比起与 Google 等竞争对手的剑拔弩张,OpenAI 与苹果的关系显得融洽多了。彭博社昨日报道称,OpenAI 即将与苹果达成合作协议,将 ChatGPT 服务整合到 iOS 18 操作系统。届时,视觉和音频功能改进后的生成式 AI 将有望大幅改进 Siri。包括《纽约时报》报道称,苹果两名高管在去年初花了数周时间测试 OpenAI 的 ChatGPT 之后,便作出了给语音助手 Siri 进行「大脑移植」的决定。改进后的 Siri 将于今年 6 月份的 WWDC 大会亮相。新 Siri 的对话性更强、用途更广,其 Siri 的底层技术将包括一个新的生成式 AI 系统,支持聊天功能,而不是一次回答一个问题。而这个生成式 AI 系统的角色,很有可能正是由 OpenAI 下周亮相的 AI 技术扮演。在用户的产品体验中,效率是最直接的语言。前阿里顶级 AI 科学家贾扬清对 ChatGPT 新 AI 搜索功能赞不绝口,因为相较于其他的 AI 搜索引擎/答案引擎,只有 ChatGPT 真正做到访问实际地址,让答案触手可及。这种省却繁琐步骤的行为和当红 AI 炸子鸡 Rabbit R1 的追捧理念如出一辙。尽管 Rabbit R1 在众声唾骂中沦为中看不中用的鸡肋产品,但其所谓的大行为模型(LAM)提到的核心理念依然值得学习,即理解人类的意图,转化为可操作的步骤并实时响应。在「Siri 之父」Dag Kittlaus 等人的最初构想中,也提出过相似的概念:Siri 应该是一个能够迅速而精准地获取信息的助手,一个能够熟练处理各种复杂任务的智能助理。如今,OpenAI 下周亮相的 AI 语音助手或许有望帮助苹果实现最初版 Siri 的愿景。有趣的是,我们在两个月前报道过,一些企业客户已经提前体验了最新模型的演示以及与之相配套的 ChatGPT 增强功能。一位体验过 GPT-5 版本的 CEO 提到,OpenAI 暗示了模型其他尚未公开的特性,包括能够调用 OpenAI 正在开发的 AI 代理来自动执行任务。另外有报道指出,Altman 与前苹果首席设计师 Jony Ive 正致力于推出一款 AI 硬件,可能会从投资者那里筹集高达 10 亿美元的资金。其中 OpenAI 对话式 AI 技术有望成为该设备某些功能的核心。如今看来,这些或许也是 Altman 早早埋下的伏笔。此前,Altman 在接受采访时卖关子说,从 OpenAI 创造出 AGI 之前,将会有一大堆疯狂爆炸的事情发生。下周发布的新产品不外乎是这当中的小小一笔。更多具体的信息,仍有待下周揭晓。现在只需调好闹钟,届时 APPSO 将带来最新的报道。