Hello GPT-4o
邮箱|[email protected]
今天,OpenAI正式推出最新旗舰模型GPT-4o,能够跨音频、视觉和文本进行实时推理。
GPT-4o("o" 即 "omni 全能")标志着实现更自然人机交互的zhong'da进步。它能够接收文本、音频和图像的任意组合作为输入,并输出同样多样化的组合。在最短232毫秒内响应音频输入,平均响应时间320毫秒,与人类在对话中的反应时间类似。在处理英语和编程方面与GPT-4 Turbo表现相当,非英语文本处理上则有显著提升。此外,GPT-4o在API中的运行速度更快,成本也降低了50%。在视觉和音频理解能力上,GPT-4o明显优于现有模型。
在GPT-4o之前,人们可以使用语音模式与ChatGPT交谈,平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为此语音模式集成了三个独立模型:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型再将文本转换回音频。这一过程意味着GPT-4可能丢失大量信息——它无法直接理解语调、多个说话者的声音或背景噪音,也无法输出笑声、歌唱或表达情感。
现在,OpenAI端到端训练的新模型GPT-4o覆盖了文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是第一个结合所有这些模态的模型,所以团队对模型能力和局限性仍在探索中。
模型评估
根据传统基准测试,GPT-4o在文本、推理和编程智能方面达到了GPT-4 Turbo级别的表现,同时在多语言、音频和视觉能力方面设立了新的高标准。
改进的推理能力 - GPT-4o在5次尝试的MMLU(多项选择通用知识问题测试)中创下了87.2%的新高分。
音频ASR性能 - GPT-4o在所有语言上显著提升了语音识别性能,相较于Whisper-v3尤其在资源较少的语言上有显著改进。
音频翻译性能 - GPT-4o在语音翻译方面设立了新的行业标准,并在MLS基准测试中表现优于Whisper-v3。
M3Exam评测 - M3Exam基准测试同时涵盖多语言和视觉评估,包括来自其他国家标准化测试的多项选择题,有时会包含图表和示意图。在所有语言上,GPT-4o在这一基准测试上比GPT-4表现更强。
视觉理解评估 - GPT-4o在视觉感知基准测试上达到了行业领先的表现。
语言分词
20种语言被选为新分词器在不同语言家族中压缩改进的代表。(以下含中文压缩表现)
模型安全性和局限性
GPT-4o在各种模态中通过设计内置了安全性,采用了如过滤训练数据和通过后训练改善模型行为的技术。OpenAI还创建了新的安全系统,为语音输出提供保护措施。
OpenAI根据“准备框架”和自愿承诺对GPT-4o进行了评估。对网络安全、化学生物辐射核(CBRN)、说服力和模型自主性的评估显示,GPT-4o在这些类别中的风险等级没有超过中等。这一评估包括在模型训练过程中进行一系列自动化和人工评估。同时团队测试了模型安全措施前后的版本,使用自定义的微调和提示来更好地诱导模型的能力。
GPT-4o还经历了由70多名外部专家在社会心理学、偏见与公正以及错误信息等领域进行的广泛外部红队测试,以识别由新加入的模态引入或放大的风险。并利用这些学习成果来建立安全干预措施,以提高与GPT-4o互动的安全性。
团队也认识到GPT-4o的音频模态可能会呈现出多种新的风险。今天,OpenAI公开发布文本和图像输入及文本输出。在接下来的几周和几个月内,将致力于技术基础设施、通过后训练提高可用性和必要的安全性,以发布其他模态。例如,在发布时,音频输出将限于一组预设的声音,并将遵守现有安全政策。OpenAI将在即将发布的系统卡中分享更多关于GPT-4o各种模态的详细信息。
通过对模型的测试和迭代,我们观察到存在于模型所有模态中的几个局限性。
OpenAI欢迎用户反馈,帮助识别GPT-4 Turbo仍然优于GPT-4o的任务,以便继续改进模型。
模型可用性
GPT-4o是OpenAI在深度学习领域推动实用性方向界限的最新步骤。在过去的两年中,团队在整个技术栈的每一层都进行了大量的效率改进工作。作为这项研究的首个成果,能够更广泛地提供GPT-4级别的模型。GPT-4o的能力将逐步推出(从今天开始提供扩展的红队访问)。
GPT-4o的文本和图像功能从今天开始在ChatGPT中推出。GPT-4o将提供给所有免费用户,并为Plus用户提供高达5倍的消息限制。未来几周内在ChatGPT Plus中将以alpha版本推出新版语音模式。开发者现在也可以在API中访问GPT-4o作为文本和视觉模型。
GPT-4o比GPT-4 Turbo快2倍,价格减半,速率限制提高了5倍。OpenAI计划在未来几周内向API中的一小群受信任的合作伙伴推出GPT-4o的新音频和视频功能。
微信扫码关注该文公众号作者