Redian新闻
>
ChatGPT能语音聊天和看图了!五种音色选项,背后模型细节公开

ChatGPT能语音聊天和看图了!五种音色选项,背后模型细节公开

科技

接下来两周内向Plus和企业版用户推出。
编译 |  ZeR0
编辑 |  漠影
ChatGPT又升级了!
智东西9月26日报道,OpenAI昨晚发布公告,宣布ChatGPT再度重磅升级,推出全新的语音和图像输入功能。

以前你只能用文字跟ChatGPT交流,但现在就更方便了,像召唤Siri、小爱等语音助手的开麦形式,ChatGPT也能做!你可以直接说话,以语音交谈的方式,跟ChatGPT侃天侃地。
图像功能也让体验更便捷。比如,当你在旅行时拍摄了某个景点的照片,你就能跟ChatGPT实时谈论一些有趣的信息;当你在家里拍下冰箱和食品储藏室的照片,可以问问ChatGPT有什么晚餐建议,然后让它给出相应的分步骤食谱。晚餐结束后,你还可以通过拍照、圈出作业问题,让ChatGPT帮你解题。
全新语音和图像功能将在接下来两周内向Plus和企业版用户推出。语音将在iOS和Android平台提供,图像将在所有平台上提供。

01.
交谈更自如!
与ChatGPT语音聊天,五种音色供选择


升级语音功能后,用户可以使用语音与助手进行来回对话。随时随地与它交谈,为您的家人请求睡前故事,或解决餐桌上的争论。
在ChatGPT手机app中的“设置”里,选择“新功能”,然后选择加入语音对话,点击主屏幕右上角的耳机按钮,就可以从五种不同的声音中选择你喜欢的声音,开始跟ChatGPT自由聊天。

‍‍‍‍
新语音功能由新的文本转语音模型提供支持。该模型能仅从文本和几秒钟的样本语音中生成类似人类的音频。OpenAI与专业配音演员合作创作了每一个声音,并使用其开源语音识别系统Whisper将语音转录为文本。
OpenAI展示了一些语音样本,比如讲制作冰拿铁的食谱,五种不同的声音效果如下:

juniper(杜松):
sky(天空):
cove(海湾):
ember(微光):
breeze(微风):

02.
随手一拍传图给AI
能排查故障、分析图表


升级图像功能后,用户可以点击照片按钮来拍照或选择图像,给ChatGPT发一张或多张图像。
用途很丰富,比如排查烧烤炉无法启动的原因,探索冰箱中的物品来计划膳食,或分析复杂的图表以获取与工作相关的数据。

‍‍‍‍
如果想要关注图像的特定部分,用户可以使用ChatGPT移动app中的绘图工具。
图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于照片、屏幕截图及图文文档等广泛的图像。

03.
限制语音和图像模型用途
避免被恶意滥用


OpenAI正在逐步部署图像和语音能力,随着时间推移改进和完善风险缓解措施。
新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成声音,为许多创造性和以可访问性为重点的应用程序打开了大门,但这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。
考虑到这些潜在风险,OpenAI使用这项技术来支持语音聊天等特定用例,由OpenAI直接合作的配音演员来创建,并以类似方式与其他机构合作。比如Spotify利用该技术试点播客语音翻译功能,可将播客翻译成相同音色的其他语言。
基于视觉的模型也提出了新的挑战,从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前,OpenAI与红队成员一起测试了该模型在极端主义和科学能力等领域的风险,以及一组不同的alpha测试人员。研究使OpenAI能够调整一些关键细节,以实现负责任的使用。
与其他ChatGPT功能一样,Vision旨在为人们的日常生活提供帮助。当它能看到你所看到的东西时,它会做得最好。这种方法是通过OpenAI与为盲人和弱视人士提供的免费移动应用程序Be My Eyes的合作直接获得的。
OpenAI还采取了技术措施来显著限制ChatGPT分析和直接发表有关人员的陈述的能力,因为 ChatGPT并不总是准确的,并且这些系统应该尊重个人隐私。
OpenAI称,现实世界的使用和反馈将帮助他们更好地完善这些保障措施,同时保持该工具的有用性。
用户可能依赖ChatGPT来获取一些专业的知识或信息。OpenAI对该模型的局限性保持透明,在没有适当验证的情况下不鼓励高风险用例。
此外,ChatGPT擅长转录英语文本,但在其他一些语言(尤其是非罗马文字的语言)中表现不佳。OpenAI建议非英语用户不要将ChatGPT用于此目的。OpenAI还最新公布了一篇关于GPT-4V(ision) 系统卡的论文,详细介绍了其安全方法以及他们与Be My Eyes的合作。


论文地址:

https://cdn.openai.com/papers/GPTV_System_Card.pdf



04.
结语:新功能未来两周上线
很快将向更多用户推出


随着OpenAI陆续推出新功能,ChatGPT的升级脉络已经逐渐清晰,一方面优化用户体验,让交流更加可信、更多交互、更快响应、更加便捷,另一方面严格控制模型驱动的功能用途,以守住“构建安全且有益的通用人工智能”的准则。
OpenAI将陆续扩大访问范围。ChatGPT Plus和企业版用户将在接下来两周内体验语音和图像新功能。此外OpenAI表示很快将这些功能向其他用户群体(包括开发人员)推出。
来源:OpenAI

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT「看图说话」大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相早财经丨北京一酒店竟现“楼梯间房”?查封;阳澄湖大闸蟹正式开捕;ChatGPT重磅升级:可以看图、说话【大量日期放出积分房】万豪积分再添超值兑换选项,万豪旗下首个奢华一价全包Safari Lodge开启积分房兑换科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体ChatGPT之父被开除,加入微软!ChatGPT员工要集体辞职?小秦小傅,今夜既想你们,也关心人类技术讲座|经典血管模型细胞--人脐静脉内皮细胞(HUVEC)统一图像和文字生成的MiniGPT-5来了:Token变Voken,模型不仅能续写,还会自动配图了几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具AudioCraft微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开Achronix黄仑:FPGA加速超低延迟大并发实时智能语音识别|公开课预告现在,ChatGPT能看图帮人修自行车了38k star,酷炫的桌面ui,进来看图了OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报通义千问能看图了!阿里云开源视觉语言大模型 Qwen-VL ,支持图文双模态输入「专题速递」边缘降本、智能语音降本、提高压缩率、极速高清实践爱享受的外孙女AIGC+AIoT——打造AI智能语义+语音的新时代|人本智汇李亚专访印度“月船三号”仍失联,或将作为印度“月球大使”留在月球上;可与ChatGPT语音聊天 | 环球科学要闻收割人类 III 之第十七章 黑洞记忆(9)ChatGPT让ChatGPT吐槽宕机;OpenAI对竞争对手Anthropic的合并要约被拒丨AIGC日报钱德勒在洛杉矶去世,心碎细节公开《老友记》重聚已有迹可循GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法如果你要边听音乐边学习,那一定要避开这种音乐惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)美国费城,城市名片文末送书 | 4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒!ChatGPT重大更新!prompt推荐瞬间解释超导,GPT-4成默认模型通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入魑魅魍魉是人心历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?AI大模型背后的惊人数字:问ChatGPT 5个问题,耗水500毫升?训练一次GPT-3,碳排放量相当于开车往返月球?一文总结13个国内外ChatGPT平替产品:是时候可以不那么依赖ChatGPT了~惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。