ChatGPT能语音聊天和看图了！五种音色选项，背后模型细节公开

2023-09-26 15:09

接下来两周内向Plus和企业版用户推出。

编译 | ZeR0

编辑 | 漠影

ChatGPT又升级了！

智东西9月26日报道，OpenAI昨晚发布公告，宣布ChatGPT再度重磅升级，推出全新的语音和图像输入功能。

以前你只能用文字跟ChatGPT交流，但现在就更方便了，像召唤Siri、小爱等语音助手的开麦形式，ChatGPT也能做！你可以直接说话，以语音交谈的方式，跟ChatGPT侃天侃地。

图像功能也让体验更便捷。比如，当你在旅行时拍摄了某个景点的照片，你就能跟ChatGPT实时谈论一些有趣的信息；当你在家里拍下冰箱和食品储藏室的照片，可以问问ChatGPT有什么晚餐建议，然后让它给出相应的分步骤食谱。晚餐结束后，你还可以通过拍照、圈出作业问题，让ChatGPT帮你解题。

全新语音和图像功能将在接下来两周内向Plus和企业版用户推出。语音将在iOS和Android平台提供，图像将在所有平台上提供。

01.

交谈更自如！

与ChatGPT语音聊天，五种音色供选择

升级语音功能后，用户可以使用语音与助手进行来回对话。随时随地与它交谈，为您的家人请求睡前故事，或解决餐桌上的争论。

在ChatGPT手机app中的“设置”里，选择“新功能”，然后选择加入语音对话，点击主屏幕右上角的耳机按钮，就可以从五种不同的声音中选择你喜欢的声音，开始跟ChatGPT自由聊天。

新语音功能由新的文本转语音模型提供支持。该模型能仅从文本和几秒钟的样本语音中生成类似人类的音频。OpenAI与专业配音演员合作创作了每一个声音，并使用其开源语音识别系统Whisper将语音转录为文本。

OpenAI展示了一些语音样本，比如讲制作冰拿铁的食谱，五种不同的声音效果如下：

juniper（杜松）：

sky（天空）：

cove（海湾）：

ember（微光）：

breeze（微风）：

02.

随手一拍传图给AI

能排查故障、分析图表

升级图像功能后，用户可以点击照片按钮来拍照或选择图像，给ChatGPT发一张或多张图像。

用途很丰富，比如排查烧烤炉无法启动的原因，探索冰箱中的物品来计划膳食，或分析复杂的图表以获取与工作相关的数据。

如果想要关注图像的特定部分，用户可以使用ChatGPT移动app中的绘图工具。

图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于照片、屏幕截图及图文文档等广泛的图像。

03.

限制语音和图像模型用途

避免被恶意滥用

OpenAI正在逐步部署图像和语音能力，随着时间推移改进和完善风险缓解措施。

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成声音，为许多创造性和以可访问性为重点的应用程序打开了大门，但这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。

考虑到这些潜在风险，OpenAI使用这项技术来支持语音聊天等特定用例，由OpenAI直接合作的配音演员来创建，并以类似方式与其他机构合作。比如Spotify利用该技术试点播客语音翻译功能，可将播客翻译成相同音色的其他语言。

基于视觉的模型也提出了新的挑战，从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前，OpenAI与红队成员一起测试了该模型在极端主义和科学能力等领域的风险，以及一组不同的alpha测试人员。研究使OpenAI能够调整一些关键细节，以实现负责任的使用。

与其他ChatGPT功能一样，Vision旨在为人们的日常生活提供帮助。当它能看到你所看到的东西时，它会做得最好。这种方法是通过OpenAI与为盲人和弱视人士提供的免费移动应用程序Be My Eyes的合作直接获得的。

OpenAI还采取了技术措施来显著限制ChatGPT分析和直接发表有关人员的陈述的能力，因为 ChatGPT并不总是准确的，并且这些系统应该尊重个人隐私。

OpenAI称，现实世界的使用和反馈将帮助他们更好地完善这些保障措施，同时保持该工具的有用性。

用户可能依赖ChatGPT来获取一些专业的知识或信息。OpenAI对该模型的局限性保持透明，在没有适当验证的情况下不鼓励高风险用例。

此外，ChatGPT擅长转录英语文本，但在其他一些语言（尤其是非罗马文字的语言）中表现不佳。OpenAI建议非英语用户不要将ChatGPT用于此目的。OpenAI还最新公布了一篇关于GPT-4V(ision) 系统卡的论文，详细介绍了其安全方法以及他们与Be My Eyes的合作。

论文地址：

https://cdn.openai.com/papers/GPTV_System_Card.pdf

04.

结语：新功能未来两周上线

很快将向更多用户推出

随着OpenAI陆续推出新功能，ChatGPT的升级脉络已经逐渐清晰，一方面优化用户体验，让交流更加可信、更多交互、更快响应、更加便捷，另一方面严格控制模型驱动的功能用途，以守住“构建安全且有益的通用人工智能”的准则。

OpenAI将陆续扩大访问范围。ChatGPT Plus和企业版用户将在接下来两周内体验语音和图像新功能。此外OpenAI表示很快将这些功能向其他用户群体（包括开发人员）推出。

来源：OpenAI

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章