15 秒音频即可“复制”原声！但OpenAI 担心新语音模型被滥用而限制发行

2024-04-02 04:04

整理 | 傅宇琪

3 月 30 日，OpenAI 在官网首次展示了名为“ Voice Engine ”的语音生成模型，该模型能够通过文本输入和仅仅 15 秒的音频样本生成与原始说话者声音高度相似、充满情感且逼真的自然语言语音。据悉，OpenAI 于 2022 年末首次开发出 Voice Engine，并已将其应用于其文本转语音 API 以及 ChatGPT 语音和朗读功能中的预设语音。

这项技术的问世，显然将对那些经常录制自己语音的人产生重大影响，包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。

不过目前，这项技术仅在小范围内提供，拥有访问权限的公司包括：教育技术公司 Age of Learning、视觉叙事平台 HeyGen、一线健康软件制造商 Dimagi、AI 通信应用程序创建者 Livox 和卫生系统 Lifespan。OpenAI 在其博客文章中表示：“这些小规模部署有助于为我们的方法、保障措施提供信息，并思考语音引擎如何在各个行业中发挥作用。”

官网文章中，OpenAI 也展示了 Voice Engine 的使用示例。首先，提供英文参考音频：

基于该示例，以下是三个 AI 生成的音频剪辑：

可以说，无论从音色，还是从语调、停顿等方面来看，OpenAI 的产出结果都模仿得惟妙惟肖。

OpenAI 目前使用该工具的开发合作伙伴之一，非营利性医疗系统 Lifespan 的诺曼·普林斯神经科学研究所（Norman Prince Neurosciences Institute）正在使用该技术帮助患者“恢复声音”：有一名患者因脑肿瘤失去了清晰说话的能力，该公司通过她早期在学校演讲的录音，“复制”出了她的声音。

这个模型还可以将其生成的音频翻译成不同的语言，使得它对音频业务公司很有用，比如 Spotify Technology SA。Spotify 已经在自己的试点项目中使用了这项技术来翻译 Lex Fridman 等热门主持人的播客。

AI 文本到音频生成是生成式 AI 的一个领域，正在不断发展。目前大多数专注于生成器乐或自然声音，语音生成方面相对较少被接触，部分原因是人们对深度伪造风险的担忧。

造假风险？

与 OpenAI 之前在生成音频内容方面的努力不同，Voice Engine 可以创建听起来很像本人的语音，并具有特定的节奏和语调。软件需要的是 15 秒录制的人说话的音频，以重现他们的声音。

在该工具的演示中，外媒听取了 OpenAI 首席执行官 Sam Altman（萨姆·奥特曼）的一段视频，他简要解释了这项技术，声音听起来与他的实际演讲没有区别，但完全是人工智能生成的。

“如果你有正确的音频设置，Voice Engine 基本上能生成与本人无异的声音，”OpenAI 的产品负责人 Jeff Harris（杰夫·哈里斯）说。“它的技术质量令人印象深刻。”不过，哈里斯最后补充说：“在真正准确地模仿人类说话的能力方面，显然存在很多安全问题。”

就在不久之前，已经有 AI 技术被用于伪造声音。今年 1 月，一个自称是 Joe Biden（乔·拜登）总统的人打电话鼓励新罕布什尔州的人们不要在初选中投票，声音听起来十分逼真，这一事件在关键的大选之前也引发了人们对 AI 的担忧。

OpenAI 的一位发言人表示，在收到政策制定者、行业专家、教育工作者和创意人员等利益相关者的反馈后，他们决定缩减发布规模。“我们认识到，产生类似于人们声音的言论具有严重的风险，这在选举年尤其重要，” OpenAI 在一篇博客文章中写道。“我们正在与来自政府、媒体、娱乐、教育、公民社会等领域的美国和国际合作伙伴合作，以确保我们在建设过程中采纳他们的反馈。”

据悉，OpenAI 要求合作伙伴同意遵守其使用政策，不使用该模型来冒充个人或组织，且需要获得原始说话者的“知情同意”，并向听众披露这些声音是 AI 生成的。OpenAI 还在音频剪辑中添加了一个听不见的音频水印，使其能够区分一段音频是否是由 Voice Engine 创建的。

在文章的最后，OpenAI 呼吁银行逐步取消语音认证，作为访问银行账户和敏感信息的安全措施。它还呼吁加强对 AI 深度伪造的教育，并更多地开发用于检测音频内容是真实的还是 AI 生成的技术，以应对更先进的 AI 技术带来的挑战。

参考链接：

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model

https://www.bloomberg.com/news/articles/2024-03-29/openai-previews-new-audio-tool-that-can-read-text-mimic-voices?srnd=technology-vp

内容推荐

大模型应用挑战赛已拉开帷幕。现阶段，多数语言模型已完成 3 轮更新，大模型赛道入场券所剩无几。同时，2023 年超 200 款大模型产品问世，典型场景又有哪些产品动向？对于现阶段的文生图产品而言，四大维度能力究竟如何？以上问题的回答尽在《2023 年第 4 季度中国大模型季度监测报告》，欢迎大家扫码关注「AI 前线」公众号，回复「季度报告」领取。