Redian新闻
>
OpenAI一夜之间革了Siri和同传的命,GPT-4o五大核心能力炸场!

OpenAI一夜之间革了Siri和同传的命,GPT-4o五大核心能力炸场!

公众号新闻


⭐️星标一下新榜,及时了解关于新媒体的一切


OpenAI真憋了个大的。



美国当地时间5月13日上午10点(北京时间5月14日凌晨1点),OpenAI春季发布会如约而至,没有GPT-5,没有搜索引擎,但推出了一个新的旗舰模型:GPT-4o。


“o”是Omni的缩写,意为“全能”,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。


从直播演示来看,GPT-4o的多模态、实时交互能力,已经足够惊艳到让人直呼科幻电影《her》真的变成了现实。



值得划重点的是,GPT-4o和ChatGPT Plus会员版所有的能力,将免费向所有用户开放!


不过,GPT-4o的新语音模式在未来几周内会优先对ChatGPT Plus会员开放。


此外,GPT-4o也向开发者开放了API。与GPT-4 Turbo相比,GPT-4o价格减半,但速度却快了2倍,速率限制高出5倍。OpenAI称,接下来会向部分API合作伙伴提供新的音频和视频功能支持。


GPT-4o到底有多强?昨晚“头号AI玩家”全程围观直播,现在让我们来一起回顾下其中细节。


GPT-4o惊艳面世,

核心能力全盘点


01.零延迟实时语音交互,自然真实富有情感


首先是零延迟实时语音交互,在这个环节,GPT表现得像是富有情感的真人。


在直播演示过程中,演示者Mark对GPT-4o说:“我正在做demo,我有点紧张。”然后他开始故意喘息得非常急促,GPT-4o很快识别出了他的呼吸声,告诉他:“哦,哦,哦,别紧张,慢下来,你不是个吸尘器。”并指导他调整呼吸。


整个过程中,GPT-4o的语气都非常自然、真实、富有情感,你可以随时打断它,要求它调整语气和音调。


另一位演示者让GPT-4o讲一个关于“机器人与爱”的睡前故事。刚讲一句,Mark Chen就打断了它,说它讲故事的语气不够有情感。GPT-4o调整过后,Mark Chen又很快打断它,要求它情绪再饱满再drama一点,然后GPT-4o的情绪又上了一个台阶,甚至可以说是浮夸的程度。


然后,演示者要求它切换成机器人声音,GPT-4o的声音和语气立马变得冷漠和机械。


这还没完,演示者又让GPT-4o用唱歌的方式把故事讲完,GPT-4o当场把故事改编成了一首歌,并直接唱了出来,节目效果拉满。


相比之下,ChatGPT的语音模式平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4),这无疑会破坏对话的沉浸感。


此外,由于模型需要先将语音转录为文本,GPT-3.5或GPT-4接收处理并输出文本,再将文本转换为语音,所以GPT-3.5或GPT-4无法直接获知语气、音调、背景噪音等信息,也无法输出笑声、歌声或表达情感。


02.通过摄像头视觉传达内容,在线解方程式

除了语音交互外,还可以通过视觉+语音的形式,如实时视频、上传图片等方式,与GPT-4o进行多模态交互。

 

发布会上,OpenAI展示了GPT-4o通过多模态能力帮助用户解决数学题的完整过程。

 


视觉解析图形报表也手到擒来。OpenAI官方博客中,用户一边和GPT-4o语音,一边在平板上画图,根据语音信息,解几何数学题。



03.更智能的保姆级编程助手

用GPT-4o来实时编程,也比以前的纯文本形式或上传图片进行文字对话的方式,更有交互感。

 

官方演示中, OpenAI使用电脑桌面端GPT-4o来检查代码,它不仅可以解释代码的作用,还可以告诉用户如果调整特定代码会发生什么。

 

通过一步又一步的实时问答沟通,GPT-4o可以帮助用户提高编程效率,整个过程相当丝滑。

 

 

超强的实时语音+视觉交互能力,运用在编程辅助上,以后还要啥程序员鼓励师。


04.视频通话,实时分析面部情绪


演示者还在X上实时收集了网友的反馈,其中有人提出挑战:打开摄像头,看GPT-4o能不能实时分析面部情绪。

 

演示者先是打开了后置摄像头,拍到的是面前的桌子,GPT-4o立刻分析道:“你看起来是个桌子。”

 

在切换为前置摄影头后,演示者的脸出现在与GPT-4o进行交互的界面,一整个打视频电话的即视感。

 

GPT-4o立刻说:“你看起来非常开心,有大大的笑容,你想分享一下让你这么开心的原因吗?”语气中甚至能听出一丝好奇和试探。

 

演示者回答道:“因为我在做实时演示,让大家看看你有多出色。”

 

GPT-4o带着笑声说:“拜托,别害我脸红了。”

 

看到这,“头号AI玩家”脑海里不禁回响起Samantha与Theodore之间的恋人絮语。


《Her》真的变成现实了。


05.同声传译,支持多国语言


目前,ChatGPT支持超过50种语言。据介绍,GPT-4o的语言能力在质量和速度上都得到了改进。


官方演示中,一个人说英语,另一个人说西班牙语,通过语音指示GPT-4o实时翻译,两人实现了流畅的沟通。GPT-4o基本上只在开头停顿了1~2秒,在句子中没有出现停顿、卡壳等现象。



不过,有点bug的是,由于GPT-4o是中间的沟通媒介,导致两位对话者并没有直接看对方,而是都看向了手机。未来或许会有新型设备出现,利用AI技术让使用不同语言的人们能够更自然地进行交流。


变革人机交互,

但还不是GPT-5


OpenAI首席技术官Mira Murati在直播中介绍,GPT-4o是标志性产品GPT-4模型的一个迭代版本:提供了GPT-4级别的智能,但速度更快,并改进了其在文本、语音和视觉方面的能力。

 

OpenAI首席执行官Sam Altman发帖称该模型是“原生多模态”的,在文本、视觉和音频上端到端地训练了一个新模型,GPT-4o所有输入和输出都由同一个神经网络处理。

 

根据官方博客介绍,在基准测试中,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力上设定了新的标准。

 

图源:OpenAI官网

OpenAI计划在未来几周内逐步推出GPT-4o的各项能力。其中,文本和图像能力将从发布会后当天开始在ChatGPT中推出,Plus用户可以抢先体验,并拥有相比免费用户多高达5倍的消息限制。带有GPT-4o新版本语音模式也将在未来几周内在ChatGPT Plus中推出。


针对免费用户,OpenAI也主打一个“雨露均沾”,在接下来的几周内会面向所有用户,推出GPT-4o及其相关功能:


1.体验GPT-4级智能

2.从模型和网页获取响应(联网了)

3.分析数据并创建图表

4.支持上传照片进行交互

5.上传文件以帮助总结、撰写或分析

6.发现和使用GPT和GPT商店

7.可自定义控制的ChatGPT“内存”(拥有更强的“记忆力”)


目前已经体验到GPT-4o的玩家告诉我们:体验太丝滑了!后续“头号AI玩家”也将跟进更详细的玩法评测。


当然,炸场的不只是OpenAI,在这个被称为全球“AI月”的5月,肉眼可见地,我们还将迎来谷歌的I/O开发者大会、微软Build年度开发者大会、英伟达一季报发布等AI领域重要事件。


此外,预计6月10日举办的苹果WWDC大会或将推出全新AI应用商店,并可能升级Siri语音助手,引入新的生成式AI系统。


试猜想,如果苹果真的顺利与OpenAI达成合作,GPT-4o被引入到iPhone设备端,取代(或升级)Siri,似乎也是顺理成章的事。


总的来说,相比图形用户界面,GPT-4o近乎实时的语音和视频交互体验,标志着人机交互迎来了新的变革,更自然、更直观的交互体验,已经非常接近我们在科幻片里看到的人工智能,斯派克·琼斯导演的科幻电影《Her》也因此被频频提及。


猎豹移动董事长兼CEO傅盛甚至连夜录制视频夸OpenAI在“大家都在拼大模型的参数和性能时,OpenAI杀了个回马枪,认真地做起了整合和应用”。



看完今天OpenAI的发布,很难想象谷歌明天得拿出多大的杀手锏,才能摆脱“AI届汪峰”的命运。


作者 | 月山橘 石濑
编辑 | 张洁


  关于新榜


• 作为数据驱动的互联网内容科技公司,新榜提供新媒体内容营销和企业服务系列产品,助力中国企业数字化内容资产获取与管理,服务于内容产业,以内容服务产业。
• 我们的客户既包括腾讯、字节跳动、阿里巴巴、中国平安、比亚迪、京东、通威、贝壳、宝洁、欧莱雅、联合利华、雅诗兰黛、迪士尼等头部品牌,也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构。面向企业的内容化组织建设,新榜提供从公域流量募集分发到私域内容运营建设的各项所需。
• “新媒体,找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力,新榜被评为国家级高新技术企业、上海市专精特新企业、上海数字广告领军企业,曾荣获“全国内容科技创新创业大赛一等奖” 、“上海文化企业十佳”、“中国广告新媒体贡献年度大奖”等称号,拥有多个传播评估监测专利。浏览器搜索新榜官网,获取更多新媒体动向。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了OpenAI发布全新模型GPT-4o;麦当劳回应使用过期食材;王化回应小米 SU7 刹车故障;璩静离职后发声...从临床心理学到美国头部大厂,最需要的核心能力是什么?GPT-4o团队引发OpenAI组织创新热议!应届生领衔Sora,本科生带队GPT-1,经验职级都是浮云最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接《每天刻下你的名字》&《等春来》OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真OpenAI 正式发布 GPT-4o/微信 QQ 同步上线地震预警平台/小米与京东达成全新战略合作今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折丝滑如真人,GPT-4o开启“她 ”时代,老师、同传要失业?OpenAI神秘搞事,GPT-4.5默默上线?推理碾压GPT-4网友震惊,奥特曼笑而不语惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了山姆-奥特曼怒喷谷歌,GPT-4o抢了Gemini风头神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代CVPR 2024 大核卷积杀回来了!101x101大核!PeLK:高效大核卷积网络GPTOpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-5桌面版ChatGPT登台演讲,能视频通话还会实时读屏,GPT-4o最新demo再次惊艳:“能力还是被低估了”寡姐怒了,GPT-4o系统配音强行模仿,OpenAI回应删除从电影看文学城现状,及一剑飘尘的众筹OpenAI深夜炸场,GPT-4o干翻所有语音助手!麦当劳回应使用过期食材:深表歉意;璩静离职后发声丨邦早报GPT-4调教指令揭秘,OpenAI又「Open」了一回!网友在线追问GPT-523、长篇家庭伦理小说《嫁接 下》第七章 咫尺天涯(3)四大维度深度体验,GPT-4o为何被称作“最强”;OpenAI超级对齐团队“分崩离析”;脑机试验招募第二名患者|一周国际财经再回首 (十八)GPT-4o恩怨开局,Google再次躺枪Copilot功能大礼包!微软让个人AI助手进入团队,GPT-4o现已助力Azure,浏览器视频实时翻译刚刚,GPT-4o 新功能向所有用户免费开放/苹果 WWDC 具体日程安排公布/法拉第未来发布财报,称可能永远无法盈利和自己较劲的兔崽子不仅知道520,GPT 4o还特意写了一首诗!OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。