智东西9月26日报道,OpenAI昨晚发布公告,宣布ChatGPT再度重磅升级,推出全新的语音和图像输入功能。以前你只能用文字跟ChatGPT交流,但现在就更方便了,像召唤Siri、小爱等语音助手的开麦形式,ChatGPT也能做!你可以直接说话,以语音交谈的方式,跟ChatGPT侃天侃地。图像功能也让体验更便捷。比如,当你在旅行时拍摄了某个景点的照片,你就能跟ChatGPT实时谈论一些有趣的信息;当你在家里拍下冰箱和食品储藏室的照片,可以问问ChatGPT有什么晚餐建议,然后让它给出相应的分步骤食谱。晚餐结束后,你还可以通过拍照、圈出作业问题,让ChatGPT帮你解题。全新语音和图像功能将在接下来两周内向Plus和企业版用户推出。语音将在iOS和Android平台提供,图像将在所有平台上提供。
升级语音功能后,用户可以使用语音与助手进行来回对话。随时随地与它交谈,为您的家人请求睡前故事,或解决餐桌上的争论。在ChatGPT手机app中的“设置”里,选择“新功能”,然后选择加入语音对话,点击主屏幕右上角的耳机按钮,就可以从五种不同的声音中选择你喜欢的声音,开始跟ChatGPT自由聊天。新语音功能由新的文本转语音模型提供支持。该模型能仅从文本和几秒钟的样本语音中生成类似人类的音频。OpenAI与专业配音演员合作创作了每一个声音,并使用其开源语音识别系统Whisper将语音转录为文本。OpenAI展示了一些语音样本,比如讲制作冰拿铁的食谱,五种不同的声音效果如下:
升级图像功能后,用户可以点击照片按钮来拍照或选择图像,给ChatGPT发一张或多张图像。用途很丰富,比如排查烧烤炉无法启动的原因,探索冰箱中的物品来计划膳食,或分析复杂的图表以获取与工作相关的数据。如果想要关注图像的特定部分,用户可以使用ChatGPT移动app中的绘图工具。图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于照片、屏幕截图及图文文档等广泛的图像。
OpenAI正在逐步部署图像和语音能力,随着时间推移改进和完善风险缓解措施。新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成声音,为许多创造性和以可访问性为重点的应用程序打开了大门,但这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。考虑到这些潜在风险,OpenAI使用这项技术来支持语音聊天等特定用例,由OpenAI直接合作的配音演员来创建,并以类似方式与其他机构合作。比如Spotify利用该技术试点播客语音翻译功能,可将播客翻译成相同音色的其他语言。基于视觉的模型也提出了新的挑战,从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前,OpenAI与红队成员一起测试了该模型在极端主义和科学能力等领域的风险,以及一组不同的alpha测试人员。研究使OpenAI能够调整一些关键细节,以实现负责任的使用。与其他ChatGPT功能一样,Vision旨在为人们的日常生活提供帮助。当它能看到你所看到的东西时,它会做得最好。这种方法是通过OpenAI与为盲人和弱视人士提供的免费移动应用程序Be My Eyes的合作直接获得的。OpenAI还采取了技术措施来显著限制ChatGPT分析和直接发表有关人员的陈述的能力,因为 ChatGPT并不总是准确的,并且这些系统应该尊重个人隐私。OpenAI称,现实世界的使用和反馈将帮助他们更好地完善这些保障措施,同时保持该工具的有用性。用户可能依赖ChatGPT来获取一些专业的知识或信息。OpenAI对该模型的局限性保持透明,在没有适当验证的情况下不鼓励高风险用例。此外,ChatGPT擅长转录英语文本,但在其他一些语言(尤其是非罗马文字的语言)中表现不佳。OpenAI建议非英语用户不要将ChatGPT用于此目的。OpenAI还最新公布了一篇关于GPT-4V(ision) 系统卡的论文,详细介绍了其安全方法以及他们与Be My Eyes的合作。论文地址:
https://cdn.openai.com/papers/GPTV_System_Card.pdf
随着OpenAI陆续推出新功能,ChatGPT的升级脉络已经逐渐清晰,一方面优化用户体验,让交流更加可信、更多交互、更快响应、更加便捷,另一方面严格控制模型驱动的功能用途,以守住“构建安全且有益的通用人工智能”的准则。OpenAI将陆续扩大访问范围。ChatGPT Plus和企业版用户将在接下来两周内体验语音和图像新功能。此外OpenAI表示很快将这些功能向其他用户群体(包括开发人员)推出。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)