GPT-4o炸裂登场,干翻所有语音助手!
内容来源:笔记侠(ID:Notesman)
责编 | 金木研 排版 | 五月 第 8257 篇深度好文:4539字 | 10 分钟阅读
商业思维
今天凌晨,OpenAI推出了新款人工智能模型GPT-4o。这一次,它变得更像人了,不仅能用饱含情绪的声音和人聊天,还能看、能听。
我们可以以文本、音频、图像任意组合输入,得到ChatGPT实时文本、音频、图像的任意组合输出。
并且,在交流过程中,ChatGPT不再等待若干秒才响应,而是实时回复,还能被随时打断。
《钢铁侠》里的人工智能助手贾维斯,似乎要成真。
那么,GPT-4o会带来什么样的产业变革?对于普通人来说,它又会为我们带来哪些挑战和机遇?
这次GPT-4o最让人震撼的是,它更通人性了。
这主要体现在两个方面,其一,GPT-4o 在多模态上能够融会贯通,反应的速度也有了很大提升,其交互的方式更加接近人类;其二,在 GPT-4o 驱动下的机器人明显更为活泼,也更愿意展现出人类的情绪。
1.AI更像人了
一年前,OpenAi发布了多模态GPT-4。我们可以给它提各种需求,发图片让它帮忙分析,也可以发文件、语音聊天。但是文本、图像、语音之间是有“壁”的。
比如,你想让ChatGPT帮忙解一道数学题,就只能截图或者复制题目,发给ChatGPT。如果想听ChatGPT语音讲解,得先在文本框发完之后,再切到语音。
而通过GPT-4o,我们可以直接使用桌面应用,将ChatGPT打开放在一边,和它聊着天的同时,用“拍摄”功能给它看你电脑桌面的内容,它就可以在对话中为你答疑解惑。
在一则演示中,用户将ChatGPT桌面应用和做题界面同时打开。ChatGPT不直接给出答案,而是以问题引导的方式,有问有答地一步步带用户解了一道几何题。
甚至,我们还可以打开摄像头,让ChatGPT“看”着纸面指导解题。
在模型“GPT-4o”的加持下,ChatGPT还能与用户视频通话:用户打开摄像头,让GPT-4o“看”到当下,并进行互动。
用前置镜头自拍,ChatGPT不仅能识别用户的情绪,如“看起来很开心,甚至可以说是兴奋的”,还能从用户背后的画面判断其身处的环境,如“看起来你在一个摄影棚中,背后有一些灯光,你的胸前还别着麦克风,可能在录制视频之类的”。
当有另一个人进入镜头并且做鬼脸的时候,ChatGPT也准确指出了这一“不太寻常”的情况,并加以描述。
用后置镜头,GPT-4o还可以和用户共享视角。例如,在语言学习的过程中,打开摄像头让ChatGPT用某种语言说出物品的名称。
总而言之,GPT-4o驱动下的ChatGPT,不再仅仅是一个什么都会的应用,而是真正进化成了一个“AI助手”。
2.AI也有了情绪
自ChatGPT 上线以来,在相当长的一段时间内,这款聊天机器人都给人留下一种颇为严肃、不苟言笑的感觉。
这极有可能是 OpenAI 出于避免麻烦的考虑而特意如此安排的,ChatGPT 不但回答问题时一本正经、规规矩矩,并且只要有契机就会向用户着重强调“我只是个机器人,我没有感情”。
若用户希望 ChatGPT 能更加“放松”些,就需要给出明确的指令。
然而,由 GPT-4o 驱动的ChatGPT 则明显有了不同。在没有提前给予指令的情况下,ChatGPT 不再刻意去避免表现得像人类,而是相反。
比如,研发负责人Mark Chen在台上向ChatGPT求助:“我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?”
ChatGPT非常体贴地表示:“你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!”
Mark疯狂地大喘气几次,问ChatGPT能给自己什么建议。
ChatGPT惊讶地说道:“放松啊Mark,慢点呼吸,你可不是个吸尘器!”
在这个过程中,ChatGPT和Mark的互动几乎无延迟,随时接梗。也就是说,在 GPT-4o驱动下的 ChatGPT,已不再是一个单纯追求性能的AI工具,而是开始主动给予“情绪价值”。
除此之外,它还能够理解人类在对话中适时打断的习惯,会及时停下来听你说话,并给出相应的回复。
比如,Mark表示自己要再试一遍深呼吸,此时ChatGPT也恰到好处地插进来接话说“慢慢呼气”。
整个过程,自然连贯得仿佛它是个坐在你对面的人类,完全没有AI的机械感和僵硬感!
其实,在ChatGPT走严肃路线的前两年里,不少AI机器人以更活泼、更“通人性”的姿态出现,并俘获了不少用户的心。
比如,Inflection.AI曾推出的机器人Pi,主打的就是“陪伴”,不到一年的时间里就做到百万日活用户。埃隆·马斯克(Elon Musk)的人工智能公司xAI的大模型Grok,则因其毒舌一经上线就吸引不少关注。
以及上一代的AI聊天机器人Siri、天猫精灵、小爱同学等,都有一个俏皮的“人设”
但后来,因技术有限,这些AI工具都被用户称为“人工智障”,弃而远之。
在2024年,人们曾经对Siri们抱有的期待——一个既能当得力助手帮忙做事,又能当赛博玩具聊天嬉笑的AI——终于在GPT-4o身上有了着落。
1.实时视觉助手
在模型“GPT-4o”的加持下,ChatGPT有了视觉能力,你可以直接和GPT4o进行讨论,它能实时理解你看到的东西。
官方发布了一个演示视频,ChatGPT能帮助视障人士“看”世界,在演示视频中:
视障人士问GPT-4o:“湖里有什么?”
GPT-4o回答:“鸭子们正轻轻滑过水面,它们划水相当轻松,并不匆忙,有时会将头伸入水下,可能在寻找食物。”
视障人士又问GPT-4o:“我想知道什么时候有一辆亮着橙色灯的出租车过来,我想让它载我回家。”
GPT-4o回答:“我刚刚发现了一辆,它在路的左侧朝你驶来,准备朝它挥手”。
2.辅助学习
在发布会中,一位研发负责人Barret手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演“在线导师”的角色帮助自己解题,而且只能给提示,不能直接说答案。
接到任务的ChatGPT,甚至开心大叫:“Oops,我好兴奋啊!”
Barret在纸上写下这样一个方程:3x+1=4。然后问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。随后,在Barret的要求下,它一步一步说出了解题步骤。
最厉害的是,随着小哥在摄像头中解题,ChatGPT实时地就给出了鼓励和引导。
这简直是学渣和学渣家长的福音,不用再为辅导孩子作业感到崩溃头疼。
3.虚拟陪伴人
GPT-4o 不仅能够根据场景生成多种音调,还带有类人的情绪和情感。同时,GPT-4o的响应速度也变快了,平均延迟仅为 320 毫秒,接近于人类对话的反应时间。
这样的进步,使得GPT-4o的应用场景更广,比如,当一个哄睡师,给任性的人类讲睡前故事。
在演示中,ChatGPT没讲几秒,就被人类粗暴地打断了:多点情绪,故事里来点戏剧性行不?
ChatGPT表示可以,用更起伏的声调、更夸张的语气开始讲起了故事。
结果没几秒,它又被再次打断:不行,再多点情感,给我最大程度的表达。
接下来,我们听到一个仿佛在舞台上表演莎剧的ChatGPT,语气夸张到仿佛是个戏剧演员。
随后,它又多次被打断,并且耐心地按照人类的要求,依次变成了机器人声和唱歌模式。
ChatGPT听到要求自己唱歌时,甚至叹了口气,然后开始亮起了优美的歌喉。
如今,它已不再是工具,更像是你在生活中的好朋友、人生导师,甚至可以是一个虚拟男女朋友。
看到这,你或许会想:
GPT-4o这么强,AI的迭代速度这么快,自己要被取代了怎么办?
面对AI浪潮,一味地逃避或抵抗,改变不了发展的事实。我们要主动适应它,拥抱它,在其中找到我们的机会。
1.发挥人类的协同优势
如今的人工智能,并非通用智能。人类最大的优势,就是通过系统协调它们。
举个例子:
英国在非洲修铁路时,他们要实现智能化调度和物流跟踪。但非洲许多地方的人没有文化,他们怎么办?
在许多关键位置设立岗位,岗位的人无需文化知识,只需在火车过来的时候拿起电话说火车过去,就这样对整个系统进行监测。
这是一个很典型的例子,员工都是新手,但系统很优秀,所以能运转。
现在的人工智能已经是中等水平的员工,理论上讲,它可以做很多事情。
人类的优势在于我们的复杂协同能力。每个人都无法掌握登月所需的所有知识,但合在一起就能登月,这就是复杂协同能力的力量。
2.学会指挥人工智能工作
至今,人工智能并未实现社会化,因此并未形成人工智能社会。然而,未来的发展肯定是向社会化方向进行的。
许多人质疑,人工智能是否会像电影《终结者》中的天网一样,毁灭人类?实际上,天网只是一个数据中心,而且一个超级智能体肯定不会毁灭人类,因为它肯定不如人聪明。
人的核心也不是超级智能,而是所有人在一起形成的社会化智能群体,文化作为智能的蓄水池,理性能帮助我们把智能东西总结成可交流的语言,沉淀到文化里。
因为有了文化,人类社会才特别强大。
有了人工智能,只会让人类智能进步速度继续加快,这意味着我们将有大量的服务机会产生,我们称之为服务规模化。
在过去,烹饪、教育、算账等事情都需要自己去做,现在,这些服务也可以交给别人或专家来做。
工业革命用机器让我们解放了很多,但在这一轮的智能革命中,我们可以用人工智能形成专家级服务,让我们的大脑有时间从事有创造力的工作。
而我们最重要的能力或价值,就是学会与AI协作,带动更多的机器工作,我们称之为拥有更高的机器智商。
未来的成功者是机器智商高的人类。我们要当领导人工智能的将军,好好使用这些中等水平的人工智能同事。
在发布结束后,OpenAI CEO山姆・奥特曼久违地发表了一篇博客文章,介绍了推动GPT-4o工作时的心路历程:
在我们今天的发布中,我想强调两件事。
首先,我们使命的一个关键部分是将强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪地宣布,我们在 ChatGPT 中免费提供世界上最好的模型,没有广告或类似的东西。
当我们创立 OpenAI 时,我们的最初构想是:我们要创造人工智能并利用它为世界创造各种利益。现在情况有所变化,看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,我们所有人都会从中受益。
当然,我们是一家企业,会发明很多收费的东西,这将帮助我们向数十亿人提供免费、出色的人工智能服务(希望如此)。
其次,新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样,我仍然有点惊讶于它竟然是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的飞跃。
最初的ChatGPT暗示了语言界面的可能性,而这个新事物(GPT-4o 版本)给人的感觉有本质上的不同 —— 它快速、智能、有趣、自然且能给人带来帮助。
对我来说,与电脑交互从来都不是很自然的事情,事实如此。
而当我们添加(可选)个性化、访问个人信息、让 AI 代替人采取行动等等能力时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。
最后,非常感谢团队为实现这一目标付出了巨大的努力!
微信扫码关注该文公众号作者