Redian新闻
>
视觉语音交互毫无延迟,都成精了居然还不是GPT-5?

视觉语音交互毫无延迟,都成精了居然还不是GPT-5?

公众号新闻

作者王兆洋
邮箱[email protected]

OpenaAI2024514日的这场发布会取名春季功能更新,就像它们形容当初ChatGPT的发布是一次低调的研究预览一样。
而就像那次一样,一切也都回不去了。
OpenAI发布了一个叫做GPT-4o的新模型,它的确不是GPT-5,但看了它能做的事情,再想到它甚至不是OpenAI正在砸更多的钱和智慧在做的GPT-5,你只会感觉更可怕
发布会一开始,OpenAICTO Mira Murati 介绍了新模型GPT-4o(是的,Sam Altman全程没有现身)。她强调这个模型是要给所有人使用,并且通过交互的更新让人们忘了UI的存在。因为OpenAI的愿景正是如此。
而到此这似乎还很正常。
不过是新模型而已嘛。
但直到demo环节开始,一切越来越离谱。
首先是一个实时对话的展示。
我正在做demo,我有点紧张。”Mark说。然后他开始故意喘息的非常快。而GPT识别出了他的呼吸。
哦,哦,哦,别紧张,慢下来。你不是个吸尘器。”ChatGPT的女人声音抑扬顿挫,没有任何延迟。
是没有任何延迟。你不需要等她,她也不会让你等,当你直接开始说接下来的话,她会立刻停下来听,并立刻做出调整。
而且在这些回答中,它甚至有喘息和犹豫的声音。
另一个很可怕的细节是,这些demo全程不需要任何多余的按键操作。
对,声音的对话就像是在打电话
另一个demo是假设要给朋友讲一个关于机器人的睡前故事。
提出需求后,ChatGPT开始正常的讲故事。
但听的人并不喜欢,于是直接打断说,能不能讲的更有感情更drama一点。
ChatGPT立刻调整,增加了一些悬疑感。
不不不,我希望把感情和drama感拉满。听者再次直接打断。——也就是说ChatGPT在实时听着你的声音。
然后ChatGPT变成了一个非常浮夸的故事讲述者。
你能不能用机器人的声音给我讲故事。”Mira又直接插话。
ChatGPT立刻开始模仿机器人。注意,是模仿,也就是它的声音一直是那个女声,一切听起来就像家长在讲睡前故事时候会做的那样。
你能最后唱一首歌把这个故事结束么。听者又提了要求。
然后ChatGPT立刻唱了一首歌。根据刚才的故事,实时,改编,并直接唱出来的一首歌。

“如果你之前使用过我们的语音模式,你会注意到几个关键的区别。首先,你现在可以打断模型了。你不需要等它结束你的回合,你可以随时开始说话,随时插话。其次,模型的响应是实时的。这意味着你不需要再经历那种尴尬的两到三秒的延迟,等待模型回应。最后,当我刚才呼吸非常急促时,模型能够感知到情绪。它会提醒你,或许你需要放松一下,你的节奏快得有点过头了。所以你知道,它确实具有全面感知情绪的能力。不仅如此,这个模型还能以各种不同的情感风格生成声音,它真的具有非常广泛的动态范围。”

如果你是个创业者,或者熟悉大模型应用创业环境的人,你会立刻意识到。
又有一批创业公司死了。
之后是视觉能力的展示。
对,在同一个产品上。一个据说要免费提供给全世界所有人的产品上。
他先是展示了一个通过摄像头获得视觉能力,然后实时指导你的数学解题的demo
甚至因为幻觉问题,ChatGPT在还没打开摄像头时候就自信满满的说理解了。当展示者提示后,她说“oops,我太兴奋了。
然后展示者打开摄像头,实时写了一个数学方程题,然后让ChatGPT一步一步的提醒和讲解他在做的解题思路。ChatGPT很好的做到了。
像一个很有经验有耐心的数学老师那样。
这还没完。
似乎是为了打脸那些录制好加速后的demo,他们还实时收集了X上的反馈。其中一个挑战是:打开摄像头让ChatGPT实时分析你的情绪。
展示者开始摄像头自拍,而ChatGPT立刻分析道:
你看起来是个桌子。”——因为打开摄像头时,最先打开的是前置的摄像头,对准的是桌子。
不不不,那是之前的,你不用担心,我不是个桌子。分享者说到。
哈哈,那就合理了。”Chat GPT说到。
这里看的时候,估计很多人跟我一样惊了一下。
然后ChatGPT立刻分析:你看起来非常开心。大大的笑容,甚至有一点兴奋。你想分享一下让你这么开心的原因么?语气里甚至能听到好奇,以及斟酌语句的感觉。
因为我在做实时展示,让大家看看你有多出色。讲者说。
哦,拜托,别让我脸红了。”ChatGPT带着笑声说到。
瞬间,《Her》降临。科幻成了现实。
看到这,所有人估计都明白了Sam Altman此前卖关子时候说的“magic”是什么。
在惊叹之余,还是再总结一下:
  • 1 这些操作全程没有多余的点击操作的交互。

  • 2 没有丝毫延迟的视觉和声音反馈。

  • 3 不仅能感受到你的情感,ChatGPT也自带情绪和情感。

  • 4 能对桌面等更数字化的世界有更全面的信息感知。

  • 5 全部集成在一个产品里,而且可能是对所有人免费的。

哦对,以及,这还不是GPT-5
发布会后,OpenAI也在官网更新了这次发布的模型的具体信息:
https://openai.com/index/hello-gpt-4o/
还记得ChatGPT第一次出来时,有人形容跟它第一次亲密接触的感受:
当你通过打字跟它交互的时候,等待它回答的过程仿佛能想象到对面坐着一个人,正在转笔,思考如何回答你的问题。
而今天,不只是你的叹气,情感和喘息能被AI感受到,你也能直接感受到对面的的叹气,情感,和喘息。
在电影《Her》里,主人公最终爱上了这个AI助手。我们不知道GPT-4o加持下的新ChatGPT会带来什么。更不知道GPT-5出现后会发生什么。
一切都太快了,都回不去了。
最后,对所有开发者和创业者,这次发布又意味着什么?
也许这句当时有些被人不以为意甚至觉得冒犯的话值得再看一遍,它可能说明了一切:
目前有两种构建人工智能的策略:一种是假设模型不会改进,然后在现有的能力上建设一堆小东西;另一种是假设 OpenAI 将保持相同的增长轨迹(继续疯狂迭代)。我认为,95% 的人应该押注在第二种策略上。我们有改进模型的使命,不是我不喜欢你们,但我们将碾压你。 

——Sam Altman,2023年4月17日

点个在看,再走吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5OpenAI Sora负责人专访:20个问题深入研发细节,Sora仍是GPT-1时期OpenAI 用 26 分钟改变世界!免费版 GPT-4 来了,视频语音交互快进到科幻片4K图像理解轻松拿捏!IXC2-4KHD:开创性的大型视觉语言模型!4999元,惠普·星Book Pro 14,居然还不错,R7-8845H为啥到处都是GPT4o套壳网站?今晚零基础教你做出来!IEEE RAL 2024 | Safe-VLN:针对连续环境中视觉语言导航任务的避障框架神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观Mac 版 GPT-4o 语音交互现场演示来了,与 \bSora 梦幻联动,新模型更多细节曝光今早洛杉矶再度下雨!这个春季雨量丰沛、花期延迟,或再迎来“超级绽放”奥特曼本人确认:神秘gpt2不是GPT-4.5!微软发布新AI PC全家桶,支持GPT-4o/苹果发布更新修复照片复现问题/ChatGPT 语音酷似「寡姐」,本人回应USC大规模暴乱!学生包围警车,警方持棍驱逐,导火索竟是GPA近4.0的女学霸!不是搜索、不是GPT 5,下周一OpenAI要展示的是这个?深夜重磅!GPT-4o 正式发布:视频语音交互丝滑到吓人,还免费可用OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎AI重新定义导航,弯道会车无灯路口提前预警,网友:导航成精了!【五律】岁杪我知道她是谁GPT-4o科幻级语音交互,人手一个「Moss」的时代来了 |【经纬低调分享】【七绝】公园晨练有题且随诗吟:《境》by 星如雨加拿大贼简直成精了 车主已被逼疯……《歌德堡变奏曲1528》ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 公司的努力将毫无意义李飞飞团队年度报告揭底大模型训练成本:Gemini Ultra是GPT-4的2.5倍OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 初创公司的努力将变得毫无意义OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTs吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果​恐怖!皇后区随机拦车发现大量攻击性武器 万一这人去了居民区……视觉语言模型导论:这篇论文能成为你进军VLM的第一步
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。