ChatGPT-4o，人类「AI 助理」的一大步｜Z Talk

公众号新闻

2024-05-14 07:05

Z Talk 是真格分享认知的栏目。

我们在这里谈论最新的行业观察，先锋的创业动态，也在这里与真格老友相聚。我们相信持续的学习和进化，相信最深刻的认知来自实践。

当地时间 5 月 13 日上午 10 点，OpenAI 召开春季发布会，正式发布 GPT-4 的迭代版本 GPT-4o ——一个「原生多模态」模型，命名来源于「omni」，即包罗万象之意。

真格基金始终高度关注 AI 领域的最新进展，并期待与你分享与探讨。

作者 | 黎诗韵
编辑 | 靖宇

5 月 13 日，OpenAI 用一场春季发布会，再次搅动了整个 AI 行业。

在 Sam Altman 缺席的情况下，OpenAI CTO Mira Murati 担纲介绍了新的 ChatGPT 产品 ChatGPT-4o。

短短 26 分钟的发布会，却几乎是科幻电影《Her》的现实演绎。当你打开 ChatGPT，你面对的不再是一个只会帮你生成内容、或者进行僵硬语音聊天的工具——你唤起的将是一个「无所不能」的语音助手，或者说，一个越来越接近人类的「物种」。

它长出了「眼睛」，可以通过摄像头看到你，比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议；它能「看到」你的电脑桌面，直接帮你查看写的代码有什么问题。

它有了更灵敏的「耳朵」，能听懂的不只是语言，还能听懂研究员过于急促的呼吸声，并引导他慢慢平稳呼吸、放松下来。

OpenAI CTO Mura Murati 宣布推出 ChatGPT-4o

图片来源：OpenAI

它有了更灵活的「嘴巴」，对话不再有延时，你能随时打断它、它能随时接住你的话。它的声音能带入感情，比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。

它也有了更聪明的「大脑」。它能帮研究员一步步解不等式，还可以做同声翻译、你可以通过它跟不同语种的人们交流。

这些强大的能力背后，源自 OpenAI 推出的新模型 GPT-4o。与现有模型相比，GPT-4o 的最大进步在于，它可以实时对音频、视觉和文本进行推理——换句话说，它让 ChatGPT 实现了真正意义上的多模态交互。

这不仅仅是技术进步的追求，更是应用普及的追求。OpenAI 的使命之一是让 AI 普惠每个人，让用户能顺滑地用上 AI 是至关重要的。在「模型即应用」的时代，这种交互体验最终还是靠模型能力的提升。OpenAI 称，GPT-4o（「o」代表「omni」）是迈向更自然的人机交互的一步。

发布会上，Mira Murati 宣布 ChatGPT-4o 将免费向所有用户开放，而付费和企业用户，可以抢先获得体验。电影《Her》上映于 2013 年，它讲述了一位人类爱上一位人工智能语音助理的故事。从今天 ChatGPT 呈现的能力来看，这样的想象正在加速成为现实。

ChatGPT 的惊人进步

在 OpenAI 的官网上，呈现了 ChatGPT 作为个人语音「超级助理」的更多惊人应用场景。

首先是面向单个用户，和人一样，它提供的主要是「情绪价值」与「认知价值」。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等；它能充当面试官，给人提供面试建议；它还能给一位盲人提供环境观察，给他讲述看到的景色、提醒他过马路的路况。

盲人用户使用 ChatGPT-4o「观察」整个世界

图片来源：OpenAI

接着是面向多个用户，它提供的更多是一种「协同价值」。比如给两个语言不通的人充当翻译，让他们能无障碍沟通；给两个人做「剪刀石头布」的游戏裁判，先喊口令让游戏开始、之后还能准确判断是哪个人赢了；充当一名「家教」，帮一位父亲辅导他的孩子做作业；甚至作为一名「会议第三方」，主持和记录多人会议。

最有意思的还是，不同 ChatGPT 之间的对话。这种无需人类参与的沟通，不仅充满了科幻感，更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中，一位用户要求一部手机的 ChatGPT 代表自己，向另一部手机的 ChatGPT 申请售后，结果这两个 ChatGPT 毫无阻碍地聊了两分钟，顺利帮这位用户「换了货」。而 OpenAI 总裁 Greg Brockman 则做了一个调皮的演示，他让两个 ChatGPT 互动并唱了歌。

OpenAI 总裁 Greg Brockman 演示两个 GPT 的互动

图片来源：OpenAI

一位曾在 10 年前就开始做「AI 语音助理」的前大厂高管对极客公园表示，他当时就设想过 AI 助理的终极形态应该是「多模态、无所不能」，但彼时技术并不支持，他认为 ChatGPT 会加速这种设想实现的可能——只是他没想到，这个过程会来得这么快。

他认为，实现 AGI 的一个关键标志是，机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远，但当两个 ChatGPT 开始互相聊天的时候，这个鸿沟看起来似乎浅了一点点。

GPT-4o 多模态大模型的技术进步、以及安全性

这些惊艳的产品表现，根本上源自于 GPT-4o 多模态大模型的技术进步。后者分为文本、语音、图像三部分，GPT-4o 在这三块都有提升，尤其是后两者。

在文本方面，据 OpenAI 的技术报告，GPT-4o 在 MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评测指标上，都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本)，以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上，GPT-4o 创下了 88.7% 的新高分。

GPT-4o 在文本上的成绩相当优异

图片来源：OpenAI

最关键的，是音频、多语言和视觉上的进步。

在音频方面，过去 ChatGPT 的音频缺陷是需要经过三个独立的模型，从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本，再由 GPT-3.5 或 GPT-4 接收文本并输出文本，最后由第三个模型将该文本转换回音频——一方面，它使得音频的传输存在延迟，GPT-3.5 的平均延迟为 2.8 秒，GPT-4 的平均延迟为 5.4 秒。另一方面，模型会丢失大量信息，从而无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而 GPT-4o 的解决办法是，跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。OpenAI 称这是其突破深度学习界限的最新举措。目前，GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入，与人类的响应时间相似。同时在音频 ASR 性能和翻译性能上，GPT-4o 都比 Whisper-v3（OpenAI 的语音识别模型）的性能更优。

M3Exam 基准测试既能用于多语言评估，也可以用于视觉评估。它由多项选择题组成，包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。另外在视觉理解评估上，GPT-4o 在视觉感知基准上都实现了最先进的性能。

GPT-4o 在视觉理解上同样能力不错

图片来源：OpenAI

一位大模型训练者曾对极客公园表示，模型的技术领先性从来不是靠打榜评分，而是靠用户最真实的感受和体验。从这个角度来说，GPT-4o 的技术领先性将很容易见分晓。

OpenAI 表示，GPT-4o 的文本和图像功能将于发布会当天在 ChatGPT 中推出。免费用户就可以使用，不过 Plus 付费用户能享受高达 5 倍的消息容量。在未来几周内，OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

而开发人员现在就可以在 API 中访问 GPT-4o 的文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍、价格降低了一半、速率限制提高了 5 倍。在未来几周内，OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。

一项强大的技术最令外界担忧的，就是它的安全可控性。这也是 OpenAI 最核心的考虑之一。

OpenAI 表示，GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。其还创建了新的安全系统，为语音输出提供防护。为了保证更好的安全性，OpenAI 表示在接下来的几周和几个月里，将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。

OpenAI 从没让外界失望

作为这波 AI 浪潮的开启者、引领者，OpenAI 的每一次发布和更新，都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向。

在这次发布会之前，外界对 OpenAI 颇多谣传、也包括质疑。一周前，外媒报道此次 OpenAI 要发布的是一款搜索引擎——在一年最重要的新闻发布时刻，这家公司没有推出 GPT-5，这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品，这家公司将难以重振用户的增长、满足整个市场对它的期待。

自 2022 年底推出 ChatGPT 后，这家公司的用户量经历了大起大落。据 Similarweb 估计，其全球访问量在 2023 年 5 月达到 18 亿次的峰值。但进入 2023 年下半年后，其用户量则有所下降，至今仍未追平去年 5 月的全球访问量峰值记录。

自 2022 年 11 月以来，ChatGPT 在全球和美国的流量增长情况

图片来源：Similarweb

这次发布会，直接关系着其用户量的增长情况。

外界对搜索引擎还是颇为关注的，Similarweb 表示这个消息当天让 ChatGPT 流量大涨。不过，在发布会前两天，OpenAI CEO Sam Altman 才对外澄清，此次既不会发 GPT-5、也不会发搜索引擎，「但我们一直在努力开发一些我们认为人们会喜欢的新东西！对我来说感觉就像魔法一样。」他把这件事描述得更小了。

或许，人们是在一种低期待中观看这次 OpenAI 的发布会。但最终，他们收获到的是一次强烈的震撼。这或许正是 OpenAI 想要的反差效果。

无论是最初的 GPT-3.5，还是去年这个时候的 GPT-4，还是去年底的 GPTs，又或者是今年年初的 Sora——OpenAI 再一次证明，它不会让世人失望。尽管 Google、Claude、Character AI、Perplexity 等竞争对手正攫走更多新用户、以及资本的青睐，但 OpenAI 依然证明自己有能力引领着科技创新的「高地」。

ChatGPT 和其他聊天机器人的访问量对比

图片来源：Similarweb

在此次 OpenAI 推出基于 GPT-4o 的「超级智能助理」之后，这似乎也将成为接下来各科技大厂争先追赶的方向。

据外媒报道，近期谷歌一直在测试使用人工智能打电话。传闻，它将推出一款名为「Pixie」的多模态个人助理，作为「Google Assistant」的替代品。它可以通过摄像头查看物体，并执行人类指令。这在明天的 Google I/O 大会上就会见分晓。

而近日，外媒亦报道，苹果即将与 OpenAI 达成协议——在 6 月份苹果举办的年度全球开发者大会上，苹果或将在 iOS 18 中引入由 ChatGPT 提供支持的「聊天机器人」，这或将对苹果的个人语音助理 Siri 带来颠覆性影响。

难以想象，仅仅一年半的时间，OpenAI 就将技术推到了今天这个地步、让「超级助理」的想象这么快发生在我们眼前。然而，这也只是 OpenAI 释放的技术实力的一角。毕竟，我们今天谈到的仅仅是 GPT-4 的更新，还没有说到 GPT-5。OpenAI 到底会给我们带来多少震撼、以及随之会产生多少忧虑，都是未知的问题。

如果站在科技的未来隧道往回看，今天 GPT-4o「超级语音助理」的诞生，或许会成为科技史上一个标志性的时刻。但或许又如同 OpenAI 首席运营官 Brad Lightcap 几天前所说，「在接下来的 12 个月里，我们应该会觉得今天使用的（AI）系统糟糕得可笑。」

推荐阅读

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章