OpenAI发布Voice Engine，15秒克隆任何语音，霉霉说中文就靠它

公众号新闻

2024-03-31 01:03

许久没动作的OpenAI，突然悄咪咪发布了一个新模型。

继文生视频工具Sora后，语音赛道迎来Voice Engine。一个仅使用文本输入和单个15秒音频样本，就能生成与原始说话者声音几乎一模一样，任何内容和语种的自然语音引擎。

官推这次的语气也异常谦虚，没有大张旗鼓地宣告，只是说“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会。”

毕竟根据他们自己介绍，这款Voice Engine早在2022年底就被开发出来了，最初是用来为文本到语音API以及ChatGPT语音和朗读功能提供支持。只是考虑到合成语音被滥用的潜在风险，才选择谨慎有序地推进和发布。

它最让OpenAI引以为豪的亮点在于，一个小型模型仅使用15秒样本，就能创造出富有感情和逼真的声音。

这听起来并不陌生吧？去年在微博和抖音爆火过一波，让霉霉十级中文唠家常、蔡明阿姨英伦腔讲段子的AIGC初创公司HeyGen，就是这个技术的早期采用者之一。

HeyGen通过使用Voice Engine进行视频翻译，把说话者的声音转换成多种语言，同时保留原始口音，并与面部嘴型无缝同步，形成以假乱真的数字虚拟人化身，应用于从产品营销到教学演示的各类内容。也让无数互联网用户惊呼轻松通晓十门外语不再是梦。

看看B站Up主「量化极客」使用HeyGen制作的李团长原声英文，很对味儿：

HeyGen自己也刚刚在推特发文公布了和OpenAI的合作关系。秘密保守到现在，终于可以光明正大的PR了！

其他内测应用实例

除了给HeyGen的内容创作提供语音翻译支持，从去年底开始，OpenAI也与少数其它合作伙伴进行了私下测试。获得一些Voice Engine模型在各个行业中的早期应用示例：

提供阅读辅助

对于儿童或没有阅读能力的人群，Vocie Engine可以用自然而富有感情的声音充当他们的阅读助手。儿童教育科技公司 Age of Learning就一直使用它生成预编排的配音内容，并与GPT-4结合来创建实时个性化响应，与学生互动。

比如有了下面这段解释物理概念“力”的语音：

就可以获得同样音色讲解其它学科，像是生物的音频内容。大大节省劳动力，配音员从此失业。

改善偏远地区基础服务，触及全球社区

对于一些发展相对滞后、非通用语种的地区，Vocie Engine能通过快速同步最新资讯，协助改善公民基础服务。例如专注于为全球公益组织提供尖端数字健康解决方案的初创公司Dimagi，就使用Voice Engine和GPT-4，为社区卫生工作者构建工具，帮助他们发展技能，并用他们的母语提供互动反馈。

下面这段参考语音是坦桑尼亚、肯尼亚和乌干达的官方语言斯瓦西里语，在非洲共有5500万人使用。

Voice Engine以此为基础，生成斯瓦西里语版的新手妈妈母乳咨询指导。打破了物理障碍，为本地人群提供极大便利。

辅助语音表达障碍人群

例如为语言能力受损的患者提供治疗应用程序，或为有学习需求的患者提供教育增强功能。

Livox是一款AI辅助沟通应用程序，为残疾人提供辅助及替代沟通设备，帮助他们交流。通过使用Voice Engine，Livox能够为无法用语音表达的人群提供独特且不机械化的语音选择。用户可以挑选最能代表自己个性的声音，双语人士还能在多语种中保持口音一致。

帮助患者恢复语音

针对那些遭受突发性或渐进性语言障碍的患者，布朗大学医学院附属的Norman Prince神经科学研究所正在探索AI在临床环境中的应用。他们一直在试验的一个项目，是用Voice Engine为因癌症或神经系统疾病导致语言障碍的个人提供帮助。

由于Voice Engine只需要15秒这样简短的音频样本，几位医生仅利用一位年轻患者曾经录制的视频，就为她恢复了因脑血管肿瘤而失去的流利语音。

这位患者现在声音听起来是下面的样子：

Hi everyone, this is what my voice sounds like using OpenAI's new text to speech model called Voice Engine. I was able to use just 15 seconds of a video that I made for a class project to be the reference audio source for the voice you hear right now. What do you think?

作为参考的是她健康时录制过的课堂项目视频声音：

在Voice Engine帮助下，她能够重拾曾经的声音，在餐厅给自己点一份薯条和草莓奶昔：

Can I please have a number one with large fries and with a strawberry shake?

构建Voice Engine的安全问题

对于近期合成语音引发的电信诈骗、版权侵害等社会风险问题，OpenAI也表示，开发过程中一直在与政府、媒体、教育等社会各界的美国和国际合作伙伴接触，保证听取和采纳反馈。并实施了一系列包括为Voice Engine生成的音频进行水印追踪来源、主动监控其使用情况等安全措施。

OpenAI把Voice Engine作为帮助社会理解技术前沿和AI所能实现的延续，现阶段选择预览但不广泛发布，未来会就是否以及如何大规模部署这项技术做出更明智的决定。

鉴于现在生成式AI在语音方面的巨大潜力，OpenAI也强烈指出全社会都要加强应对挑战的能力，并提出几点参考建议：