Redian新闻
>
Hello GPT-4o

Hello GPT-4o

公众号新闻

作者张潇雪
邮箱[email protected]

今天,OpenAI正式推出最新旗舰模型GPT-4o,能够跨音频、视觉和文本进行实时推理。

GPT-4o("o" 即 "omni 全能")标志着实现更自然人机交互的zhong'da进步。它能够接收文本、音频和图像的任意组合作为输入,并输出同样多样化的组合。在最短232毫秒内响应音频输入,平均响应时间320毫秒,与人类在对话中的反应时间类似。在处理英语和编程方面与GPT-4 Turbo表现相当,非英语文本处理上则有显著提升。此外,GPT-4o在API中的运行速度更快,成本也降低了50%。在视觉和音频理解能力上,GPT-4o明显优于现有模型。

在GPT-4o之前,人们可以使用语音模式与ChatGPT交谈,平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为此语音模式集成了三个独立模型:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型再将文本转换回音频。这一过程意味着GPT-4可能丢失大量信息——它无法直接理解语调、多个说话者的声音或背景噪音,也无法输出笑声、歌唱或表达情感。

现在,OpenAI端到端训练的新模型GPT-4o覆盖了文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是第一个结合所有这些模态的模型,所以团队对模型能力和局限性仍在探索中。

1

模型评估

根据传统基准测试,GPT-4o在文本、推理和编程智能方面达到了GPT-4 Turbo级别的表现,同时在多语言、音频和视觉能力方面设立了新的高标准。

改进的推理能力 - GPT-4o在5次尝试的MMLU(多项选择通用知识问题测试)中创下了87.2%的新高分。

音频ASR性能 - GPT-4o在所有语言上显著提升了语音识别性能,相较于Whisper-v3尤其在资源较少的语言上有显著改进。

音频翻译性能 - GPT-4o在语音翻译方面设立了新的行业标准,并在MLS基准测试中表现优于Whisper-v3。

M3Exam评测 - M3Exam基准测试同时涵盖多语言和视觉评估,包括来自其他国家标准化测试的多项选择题,有时会包含图表和示意图。在所有语言上,GPT-4o在这一基准测试上比GPT-4表现更强。

视觉理解评估 - GPT-4o在视觉感知基准测试上达到了行业领先的表现。

1

语言分词

20种语言被选为新分词器在不同语言家族中压缩改进的代表。(以下含中文压缩表现)

1

模型安全性和局限性

GPT-4o在各种模态中通过设计内置了安全性,采用了如过滤训练数据和通过后训练改善模型行为的技术。OpenAI还创建了新的安全系统,为语音输出提供保护措施。

OpenAI根据“准备框架”和自愿承诺对GPT-4o进行了评估。对网络安全、化学生物辐射核(CBRN)、说服力和模型自主性的评估显示,GPT-4o在这些类别中的风险等级没有超过中等。这一评估包括在模型训练过程中进行一系列自动化和人工评估。同时团队测试了模型安全措施前后的版本,使用自定义的微调和提示来更好地诱导模型的能力。

GPT-4o还经历了由70多名外部专家在社会心理学、偏见与公正以及错误信息等领域进行的广泛外部红队测试,以识别由新加入的模态引入或放大的风险。并利用这些学习成果来建立安全干预措施,以提高与GPT-4o互动的安全性。

团队也认识到GPT-4o的音频模态可能会呈现出多种新的风险。今天,OpenAI公开发布文本和图像输入及文本输出。在接下来的几周和几个月内,将致力于技术基础设施、通过后训练提高可用性和必要的安全性,以发布其他模态。例如,在发布时,音频输出将限于一组预设的声音,并将遵守现有安全政策。OpenAI将在即将发布的系统卡中分享更多关于GPT-4o各种模态的详细信息。

通过对模型的测试和迭代,我们观察到存在于模型所有模态中的几个局限性。

OpenAI欢迎用户反馈,帮助识别GPT-4 Turbo仍然优于GPT-4o的任务,以便继续改进模型。

1

模型可用性

GPT-4o是OpenAI在深度学习领域推动实用性方向界限的最新步骤。在过去的两年中,团队在整个技术栈的每一层都进行了大量的效率改进工作。作为这项研究的首个成果,能够更广泛地提供GPT-4级别的模型。GPT-4o的能力将逐步推出(从今天开始提供扩展的红队访问)。

GPT-4o的文本和图像功能从今天开始在ChatGPT中推出。GPT-4o将提供给所有免费用户,并为Plus用户提供高达5倍的消息限制。未来几周内在ChatGPT Plus中将以alpha版本推出新版语音模式。开发者现在也可以在API中访问GPT-4o作为文本和视觉模型。

GPT-4o比GPT-4 Turbo快2倍,价格减半,速率限制提高了5倍。OpenAI计划在未来几周内向API中的一小群受信任的合作伙伴推出GPT-4o的新音频和视频功能。

点个在看,再走吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Brunello Cucinelli 上季度净营收同比增长16.5%,“中国市场的巨大增长前景显而易见”速度秒掉GPT-4o、22B击败Llama 3 70B,Mistral AI开放首个代码模型OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平微软颠覆PC形态,Copilot+PC搭载GPT-4o,8688元起售【七绝】公园晨练有题微软首发Copilot+PC搭载GPT-4o,把全世界PC都AI了|亮马桥小纪严选用 ChatGPT 写 “Hello, world!”,首席资深工程师要写 40+ 行代码?国产黑马与GPT-4o称霸中文榜首!Yi-Large勇夺国内LLM盲测桂冠,冲进世界第七【五律】岁杪Travelling to the West in 2024 ( 2 )13分钟颠覆传统电脑!微软Copilot+ PC 抢装GPT-4o、叫板苹果,网友不买账:用大炮打蚊子神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观Bun 为 JavaScript 和 TypeScript 开发者提供了一个跨平台的 ShellLlama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大我知道她是谁GPT用GPT-4纠错GPT-4!OpenAI推出CriticGPT模型;谷歌Gemma 2发布,与第一代相比性能更高丨AIGC日报“Fellows是一张永久有效的门票”|纪源Fellows六周年特别企划且随诗吟:《境》by 星如雨现实版《Her》来了,旗舰AI模型 GPT-4o 免费公布,震撼全场!OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果微软发布新AI PC全家桶,支持GPT-4o/苹果发布更新修复照片复现问题/ChatGPT 语音酷似「寡姐」,本人回应桌面版ChatGPT登台演讲,能视频通话还会实时读屏,GPT-4o最新demo再次惊艳:“能力还是被低估了”Copilot功能大礼包!微软让个人AI助手进入团队,GPT-4o现已助力Azure,浏览器视频实时翻译《歌德堡变奏曲1528》OpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-5Apple WWDC24的18条总结:从GPT-4o开始集成ChatGPTLevi’s 与 Brunello Cucinelli 就标签侵权一案达成和解惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTsGPT-4o团队引发OpenAI组织创新热议!应届生领衔Sora,本科生带队GPT-1,经验职级都是浮云Her Boyfriend Killed Himself. The Internet Blamed Her.
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。