Redian新闻
>
Mac 版 GPT-4o 语音交互现场演示来了,与 \bSora 梦幻联动,新模型更多细节曝光

Mac 版 GPT-4o 语音交互现场演示来了,与 \bSora 梦幻联动,新模型更多细节曝光

公众号新闻

自打 OpenAI 发布会以来,GPT-4o 模型虽早已被整合到 ChatGPT 里,但备受关注的语音交互却迟迟不见身影。
当时,OpenAI CEO Sam Altman 还在 X 上解释称:
新的语音模式尚未发布(尽管 GPT-4o 的文本模式已经上线)。目前您在应用程序中可以使用的仍是旧版本。不过,新的语音模式绝对值得等待!
正当用户的耐心即将触底时,在法国巴黎最近举行的 Viva Tech 活动上,OpenAI 的开发者体验负责人 Romain Huet 再次向我们展示了一些关于 GPT-4o Mac 版本的功能。
和发布会上演示的功能相类似,视频中的 GPT-4o 确实能够变换不同语音,每一次发声都仿佛真人般的交流。
当团队成员让它充当翻译,将英文翻译成法语,法语翻译成英语时,对话游刃有余,美中不足的是,这法语怎么听都像带着一丝美国口音的腔调?

翻译视频来自@dotey
又或者给 GPT-4o 展示一幅简约勾勒的埃菲尔铁塔与凯旋门的草图,它能精准识别出这些地标性建筑并根据要求规划出前往目的地的路径。
不过这里也抛出一个疑问:倘若不是地标性的建筑,而是一些街角小店,GPT-4o 是否还能识别出草图上的位置,并找出相应的路线呢。
有趣的是,GPT-4o 与 Sora 在演示过程中还来了波梦幻联动。
Huet 精心录制了一段音频,发送给 ChatGPT,然后它就能基于语音功能,用 Sora 生成一段配套视频。

翻译视频来自@dotey
在这个过程中,ChatGPT 还支持选用不同语言的语音,并且保留了原始声音的音色,与此同时,精准同步生成的字幕也进一步提升了观看体验。
据外媒 Tom's Guides 报道,Huet 在演示期间还透露了一张幻灯片,微妙地暗示了下一代 GPT 模型的名称 。
幻灯片显示了 GPT-3、GPT-4 和「今天」以及 GPT-Next 等名称,没有如预期般出现 GPT-5。Tomguides 认为,这表明 OpenAI 下一代模型的命名大概率舍弃了 GPT-5 的命名。
实际上,这也与 OpenAI CEO Sam Altman 最近采访的言论的不谋而合。
他在访谈中透露「实际上还没决定是否将它的名字定为 GPT-5」,并暗示未来可能会偏离 GPT N+1 的递增模式,转而采取持续迭代和优化的策略。
另外,报道称,Huet 还暗示在未来几个月和几年内,我们将看到更多不同尺寸的 OpenAI 模型,而不再是一个适用于所有产品的模型。
这样的好处是显而易见的,小模型节省资源、适配性强,适合移动设备和快速部署;大模型虽消耗资源多,但能处理更复杂任务,提供更高精度和泛化能力。
从 Huet 分享的幻灯片中,我们可以看到在今年年底将会看到一个代号为 GPT-Next 的模型,Tom's Guides 怀疑这实际上可能是 Omni-2——一个更精细、更好训练和更大的 GPT-4o 版本。
图表显示,这将是对现有技术的显著但非突破性的改进——未来几年将有更多更好的技术到来。
包括最近微软发布会上的幻灯片也疑似埋下了一个小彩蛋。
报道称,为配合国际人工智能首尔峰会的发布,OpenAI 表示将花更多时间评估新模型的能力,这也可能解释了尚未公开发布日期的原因。
眼尖网友化身列文虎克,下一次大版本更新疑似在 11 月
作为 AI 领域的一次质的飞跃,GPT-4o 实现了从纯文本推理到涵盖文本、图像及视频的综合理解能力的跨越。
因此,比起 GPT-5 的到来,我们现阶段更希望的是,要不 OpenAI 还是别藏着掖着了,赶紧推送 GPT-4o 的语音模型吧。



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
--上部完--《谷雨立夏间》83 等你昇腾社区回应网传华为发布会大模型生成图片系人工操控;Sam Altman:新款语音模型GPT-4o尚未发货丨AIGC日报微软昨夜AI全家桶狂飙:GPT-4o上云,纳德拉现场表白OpenAI,Altman剧透新模型离奇|加航员工等9人被控!多伦多机场2000万元黄金大劫案告破!更多细节曝光…《七绝》尘埃落地 2024年3月25日GPT-4o科幻级语音交互,人手一个「Moss」的时代来了 |【经纬低调分享】GPT重磅:多伦多机场2000万黄金大劫案告破!嫌犯被捕,更多细节曝光…突发!澳洲警方当街击毙一名16岁少年,死者持刀冲入人群,有人遭砍!更多细节曝光GPT搜索引擎原型曝光!新模型GPT4-Lite驱动,虽然鸽了发布会但代码已上传ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5加航员工等9人被控!多伦多机场2000万元黄金大劫案告破!更多细节曝光…新州9岁女童惨遭枪杀,尸体被丢垃圾桶!案件更多细节曝光,凶手恐是生母?视觉语音交互毫无延迟,都成精了居然还不是GPT-5?OpenAI发布全新模型GPT-4o;麦当劳回应使用过期食材;王化回应小米 SU7 刹车故障;璩静离职后发声...大模型高考成绩公布,理科最多上「二本」/传娃哈哈总经理宗馥莉请辞/OpenAI 推出 GPT-4o mini 新模型西裔情缘百度或为苹果国行 iPhone 16 提供 AI 功能,更多细节曝光联邦财案更多细节曝光!工党砸$113亿应对住房危机加拿大2000万元黄金大劫案告破!系内外勾结作案,更多细节曝光…深夜重磅!GPT-4o 正式发布:视频语音交互丝滑到吓人,还免费可用“以为要被打死”!墨尔本华人母女停车场遭殴打致入院,事件更多细节曝光!刚刚,微软掀起生产力革命!GPT-4o 重塑 Windows,奥特曼登场剧透新模型苹果的AI芯片,更多细节曝光中东见闻8 游轮悠闲一日OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折Mac cheese 可以天天吃吗微软发布新AI PC全家桶,支持GPT-4o/苹果发布更新修复照片复现问题/ChatGPT 语音酷似「寡姐」,本人回应OpenAI 用 26 分钟改变世界!免费版 GPT-4 来了,视频语音交互快进到科幻片OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了“以为要被打死”!澳华人母女停车场遭殴打致入院,事件更多细节曝光!中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑解散朝鲜祖国统一民主主义战线有何深意?OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代吃货盼来了!两大中国品牌在墨尔本梦幻联动!限定暗号+神秘嘉宾空降!语音合成之王ElevenLabs搅局音乐界,新模型创作水准堪驰援《歌手》OpenAI发布全新模型GPT-4o;淘宝改版首页:频道入口由三栏变双栏呈现……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。