Redian新闻
>
GPT-4o的“类人”响应速度刺痛Siri?

GPT-4o的“类人”响应速度刺痛Siri?

公众号新闻

 防走失,电梯直达安全岛报人刘亚东A 





来源:经济观察报

作者:钱玉娟 陈奇杰


GPT-4o可以在短至0.23秒(平均为0.32秒)的时间内响应音频输入,与人类的响应时间相似。





北京时间5月14日凌晨,美国人工智能研究公司OpenAI召开春季发布会,发布全新旗舰模型GPT-4o。该发布会仅在线上进行了不到30分钟,却引起了AI界的广泛关注。

GPT-4o的“o”代表“omni(全能)”。OpenAI称,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色,这款模型接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。在英语文本和代码上,GPT-4o的性能和GPT-4 Turbo模型的性能相匹配,在非英语文本上,GPT-4o的性能有显著提高。

GPT-4o的“类人”交互能力尤其受到关注。在发布会现场,OpenAI的工程师对GPT-4o说“我第一次来直播的发布会,有点紧张”,GPT-4o回应他“要不你深呼吸一下”。在工程师略作夸张的大力深呼吸后,GPT-4o很快说道“你这不行,喘得也太大了”。

金山云AI业务负责人于游在GPT-4o发布后也进行了相关测试。他称,GPT-4o“TTS(从文本到语音)效果优化明显”。在他看来,OpenAI真正意义上实现着VPA(虚拟个人助理)的落地。

于游指出,近几年无论是学界还是技术界,“类人”应用在AGI(通用人工智能)领域高速发展,但把多模态、类人语音这些东西完全对齐,放在一个模型当中,如此顺畅地将效果展现出来,OpenAI实现了“一个非常重大的工程化进步”。

GPT-4o的音频响应速度已经达到和人类相似的水平。OpenAI称,GPT-4o可以在短至0.23秒(平均为0.32秒)的时间内响应音频输入,与人类的响应时间相似。而使用语音模式与GPT-3.5对话的平均延迟为2.8秒,与GPT-4对话的平均延迟为5.4秒。

在浙江大学计算机系统结构实验室从事大模型相关研究的陈天楚全程观看了OpenAI的发布会。陈天楚称,GPT-4o弱化了编程等专业能力,尤其突出了语音模态能力,“是首个公开、有实用价值的端到端语音对话模型”。

GPT-4o的“类人”交互能力也让市场关注到OpenAI在端侧,以及和苹果公司合作的想象空间。

身在新加坡的Vibranium Consulting副总裁陈沛一早打开ChatGPT就收到了更新提示,他使用后的感受是“这次最大的优化是响应延迟”。陈沛称,以前使用ChatGPT基本上要1秒到2秒才能生成,如今流畅度进一步增加。

陈沛称,GPT-4o的效果展示让外界看到OpenAI正在推动大模型在手机终端侧的落地,因为“语音输入和生成延迟,一直都不是网页端的刚需”。

这也是近期市场的关注焦点之一。日前,有报道称,苹果公司接近与OpenAI达成协议,将在苹果手机下一代操作系统iOS 18集成ChatGPT。苹果还与谷歌就授权Gemini聊天机器人进行了谈判。

2024年苹果全球开发者大会(WWDC 2024)将于6月10日至6月14日举行,并计划发布iOS18。

英伟达科学家Jim Fan在社交媒体发文猜测,OpenAI与苹果iOS的集成可能有三个层次:一是苹果放弃语音助手Siri,OpenAI为iOS提炼出更小型、纯设备上的GPT-4o,并可选择付费升级以使用云;二是设备将拥有把相机或屏幕传输到模型中的功能,可以对神经音频或视频编解码器进行芯片级支持;三是与iOS系统级操作API(应用程序编程接口)和智能家居API集成。

相关方均未就上述消息予以公开回应。但在发布会上,OpenAI称,苹果电脑用户将迎来一款为macOS系统设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面并向ChatGPT提问。

于游称,OpenAI去年发布GPT-4后,其付费的高性能版本就已经展现出模型对图文、语音、视觉等全方位的实时推理等相关能力。现在OpenAI通过GPT-4o一个大模型将图文、语音、视觉交互进行了集中展示,还为未来应用层打开了想象空间,机器完全可以通过识别语音和表情实现与人的交互

“VPA的载体会发生变化。”于游说,OpenAI试图撬动一种新的交互逻辑,伴随人机智能交互方式的改变,不论是硬件端还是软件端,都极有可能产生一个新的载体,去实现AGI系统响应人类强人工智能的需求。





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-5childhood dreams - Bouguereau\'s artCancer Discov | 挑战常规!过度刺激癌细胞或是一种治疗癌症的新方法周线开始盘整,大盘有回调的需要ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5深夜重磅!GPT-4o 正式发布:视频语音交互丝滑到吓人,还免费可用惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发GPT微软发布新AI PC全家桶,支持GPT-4o/苹果发布更新修复照片复现问题/ChatGPT 语音酷似「寡姐」,本人回应《歌德堡变奏曲1550》神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观我们上手实测GPT-4o:速度快到飞起,还能直出板书,但视频分析逊色硅谷的鸢尾花 第五章每秒执行超40万亿次运算!微软推出内置GPT-4o的全新AI PC“硬刚”,苹果将会如何应对?PC市场是否将迎来换机潮?跟韩国人抢时间!“类Darker Darker”手游海外开测,疑似国内团队新作GPT-4o发布,产品经理如何应对即将到来的“钢铁侠贾维斯助理”时代?GPT-4o团队引发OpenAI组织创新热议!应届生领衔Sora,本科生带队GPT-1,经验职级都是浮云今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果Apple WWDC24的18条总结:从GPT-4o开始集成ChatGPTSam Altman点赞!GPT-4o的幕后AI大佬是...双林奇案录第三部之校园疑案: 第二十六节OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型千万亿分之一升的水,能将化学反应速率提升百万倍?GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了用GPT-4纠错GPT-4!OpenAI推出CriticGPT模型;谷歌Gemma 2发布,与第一代相比性能更高丨AIGC日报速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了GPT-4o“炸裂登场”,响应速度堪比真人,关键还免费!网友评论褒贬不一,有人称苹果Siri现在“满头大汗”GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4速度秒掉GPT-4o、22B击败Llama 3 70B,Mistral AI开放首个代码模型OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折Hello GPT-4oChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTs桌面版ChatGPT登台演讲,能视频通话还会实时读屏,GPT-4o最新demo再次惊艳:“能力还是被低估了”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。