Redian新闻
>
OpenAI藏了1年多的技术正式公开!15秒素材克隆声音,HeyGen也在用

OpenAI藏了1年多的技术正式公开!15秒素材克隆声音,HeyGen也在用

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI雪藏的新产品——语音合成引擎Voice Engine,终于被正式揭幕。

有了它,只需15秒的语音样本,就能克隆出一个人的声音,而且还能跨越语言!

APP版ChatGPT中的语音对话功能,也正是由这项技术所驱动

效果如何?先来听段DEMO:

Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.
盐分也可以保持人体内的水分,确保其满足正常功能的需要。

而OpenAI通告显示,他们在2022年底就已经开发出了这项技术,但出于安全考虑一直没有正式发布。

这次,OpenAI终于官宣了Voice Engine,并展示了小规模测试中的几个应用案例。

比如,一家非营利医疗机构就利用这项技术,为一名年轻的病人恢复了她的声音。

另外值得一提的是,去年爆火的视频翻译软件HeyGen,采用的语音引擎也正是Voice Engine。

那么,这次OpenAI还展现了哪些效果,下面就来一睹为快。

用AI帮助病患恢复声音

首先是利用基础的语音合成能力,为儿童等不具备文字阅读能力的群体提供阅读辅助

比如一家儿童教育技术公司,就一直在使用Voice Engine来给编写好的画外音内容配音。

DEMO中生成的大段内容,都是基于这样一段15秒的样本:

然后,就可以合成相同音色的长段语音:

再来看看HeyGen中用到的的语音翻译技术,原始素材是一段英语的音频:

它被用原始的音色,翻译成了普通话、法语、德语等多种语言。

忽略译文的质量,只听声音,中文的效果是这样的:

音色保持的还算不错,不过腔调很明显一听就是外国人在说中文。

至于这到底是个bug还是个feature,就见仁见智了(手动狗头)。

此外,一款名为Livox的残障人士辅助应用,也利用Voice Engine为不能说话的残障人士“发出声音”——

在有了Voice Engine之后,TA们可以选择专属的真人音色,而不再是机械感明显的合成音,并且在各种语言之间都能保持音色的一致性。

不只是帮助残障人士拥有自己的声音,Voice Engine还可以为因疾病导致声音发生在重大改变的人群,恢复患病之前声音,只要有以前的声音样本就能实现。

一名年轻的患者因罹患血管性脑肿瘤,失去了流利讲话的能力,说话变成了这样:

医生从她所在学校录制的视频中提取到了她患病前的声音作为样本,在Voice Engine的帮助下为她恢复了此前的音色。

此次发布的案例,特别是为不便人士提供帮助的场景受到了不少好评,但也有网友对这项技术的滥用表达了担忧。

安全问题需要全社会共同关注

实际上,安全问题也是OpenAI迟迟未将这项技术公之于众的主要考量。

出于安全考虑,前面案例的开发者都经过了OpenAI的严格筛选,并且需要承诺遵守使用协议。

这些开发者被要求必须明确说明声音是合成的,并且设定了黑名单以防止克隆公众人物声音。

此外,OpenAI还向合成的声音中添加了水印,以便出现问题时可以进行检测监控,同时呼吁人们采取措施共同应对这一问题:

  • 在银行等敏感信息的安全验证措施中逐步淘汰语音验证方式

  • 探索AI时代下个人声音的保护措施

  • 教育公众理解AI的局限性,并了解其被用于欺诈的可能

  • 加速开发跟踪溯源技术,让人们能够清晰辨别出真人和AI

参考链接:
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

评选报名即将截止!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选评选报名 截至2024年3月31日 

中国AIGC产业峰会「你好,新应用!」已开启报名!点击报名参会 同时,峰会将进行线上直播 ⬇️


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
女儿总是听到墙上有“怪物”的声音,撬开墙壁后,全家吓得连连尖叫特朗普跻身全球富豪400强;诺和诺德减肥药成本5美元竟卖1000美元;OpenAI语音克隆:只需15秒音频样本|一周国际财经"黑寡妇"斯嘉丽·约翰逊表示,OpenAI盗用了她的声音,制作了名为“Sky”的ChatGPT AI新声音!来自达特茅斯的声音:五大招生真相与未来走向大公开!武汉杨泗大桥大公开!NZ前总理John Key分享人生经历!助力年轻人直通海外名校!浓人,nèng死淡人芭芭拉跟安姬拉lululemon也开始裁员了苹果计划大改 Siri 赶超 ChatGPT 等竞品/OpenAI CEO称iPhone是最伟大的技术产品/星舰将进行第四次飞行OpenAI CEO 称 iPhone 是最伟大的技术产品/特斯拉将斥资 5 亿美元建设充电网络/前暴雪总裁喊话微软 Xbox震惊!AI生成真人视频毫无瑕疵,台词随意变!HeyGen硬核升级数字人【Allston也有属于自己的楼王了?|免中介费和一个月房租|下楼就是stop&shop|公交直达BU各站点】澳洲各年龄段收入大公开!这个年龄段居然是挣的最多的!OpenAI发布Voice Engine,15秒克隆任何语音,霉霉说中文就靠它苏州景一个保密了300年的古法养生技术,今天正式公开!《藏品故事》 华荣堂制一个保密的养生技术,今天正式公开!Anthropic找到了打败OpenAI的方法:自己也成为OpenAIAI早知道|HeyGen 发布5.0版本;微软将以6.5亿美元收购Inflection AI;剪映内测视频翻译功能放弃 OpenAI,HUDstats 采用亚马逊 Bedrock 推进电子竞技叙事技术寡姐怒斥ChatGPT盗用自己声音,OpenAI:已下架,但真没模仿她寡姐大战ChatGPT!疑被AI复制偷走声音,公开撕CEO奥特曼要说法!天空的声音,是什么样的? | 声音实验室女儿总是听到墙上有“怪物”的声音,撬开墙壁后,全家人吓得连连尖叫全球首个海洋生物空间单细胞图谱出炉;OpenAI展示可克隆人声新技术丨科技早新闻全国首例AI声音侵权案解读:AI的语音素材与责任的边界【住在Allston也能看到波士顿的天际线】【近BU/Harvard高级公寓】7034 血壮山河之枣宜会战 “扑朔迷离”南瓜店 11OpenAI 推出语音引擎,只需15秒样本,即能重建任何人的声音AI在用 | 用ChatGPT、Kimi克隆自己的写作风格《周处除三害》爆火,英文名为啥是「The Pig , The Snake and The Pigeon」?AI早知道|HeyGen推自动剪辑工具;智谱AI文生视频模型预计年内发布hé bàng?hé bèng?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。