Redian新闻
>
OpenAI发布Voice Engine,15秒克隆任何语音,霉霉说中文就靠它

OpenAI发布Voice Engine,15秒克隆任何语音,霉霉说中文就靠它

公众号新闻

许久没动作的OpenAI,突然悄咪咪发布了一个新模型。

继文生视频工具Sora后,语音赛道迎来Voice Engine。一个仅使用文本输入和单个15秒音频样本,就能生成与原始说话者声音几乎一模一样,任何内容和语种的自然语音引擎。

官推这次的语气也异常谦虚,没有大张旗鼓地宣告,只是说“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会。”

毕竟根据他们自己介绍,这款Voice Engine早在2022年底就被开发出来了,最初是用来为文本到语音API以及ChatGPT语音和朗读功能提供支持。只是考虑到合成语音被滥用的潜在风险,才选择谨慎有序地推进和发布。

它最让OpenAI引以为豪的亮点在于,一个小型模型仅使用15秒样本,就能创造出富有感情和逼真的声音。

这听起来并不陌生吧?去年在微博和抖音爆火过一波,让霉霉十级中文唠家常、蔡明阿姨英伦腔讲段子的AIGC初创公司HeyGen,就是这个技术的早期采用者之一。

HeyGen通过使用Voice Engine进行视频翻译,把说话者的声音转换成多种语言,同时保留原始口音,并与面部嘴型无缝同步,形成以假乱真的数字虚拟人化身,应用于从产品营销到教学演示的各类内容。也让无数互联网用户惊呼轻松通晓十门外语不再是梦。

看看B站Up主「量化极客」使用HeyGen制作的李团长原声英文,很对味儿:

HeyGen自己也刚刚在推特发文公布了和OpenAI的合作关系。秘密保守到现在,终于可以光明正大的PR了!


其他内测应用实例

除了给HeyGen的内容创作提供语音翻译支持,从去年底开始,OpenAI也与少数其它合作伙伴进行了私下测试。获得一些Voice Engine模型在各个行业中的早期应用示例:
  1. 提供阅读辅助
对于儿童或没有阅读能力的人群,Vocie Engine可以用自然而富有感情的声音充当他们的阅读助手。儿童教育科技公司 Age of Learning就一直使用它生成预编排的配音内容,并与GPT-4结合来创建实时个性化响应,与学生互动。
比如有了下面这段解释物理概念“力”的语音:
就可以获得同样音色讲解其它学科,像是生物的音频内容。大大节省劳动力,配音员从此失业。
  1. 改善偏远地区基础服务,触及全球社区

对于一些发展相对滞后、非通用语种的地区,Vocie Engine能通过快速同步最新资讯,协助改善公民基础服务。例如专注于为全球公益组织提供尖端数字健康解决方案的初创公司Dimagi,就使用Voice Engine和GPT-4,为社区卫生工作者构建工具,帮助他们发展技能,并用他们的母语提供互动反馈。
下面这段参考语音是坦桑尼亚、肯尼亚和乌干达的官方语言斯瓦西里语,在非洲共有5500万人使用。
Voice Engine以此为基础,生成斯瓦西里语版的新手妈妈母乳咨询指导。打破了物理障碍,为本地人群提供极大便利。
  1. 辅助语音表达障碍人群

例如为语言能力受损的患者提供治疗应用程序,或为有学习需求的患者提供教育增强功能。
Livox是一款AI辅助沟通应用程序,为残疾人提供辅助及替代沟通设备,帮助他们交流。通过使用Voice Engine,Livox能够为无法用语音表达的人群提供独特且不机械化的语音选择。用户可以挑选最能代表自己个性的声音,双语人士还能在多语种中保持口音一致。
  1. 帮助患者恢复语音

针对那些遭受突发性或渐进性语言障碍的患者,布朗大学医学院附属的Norman Prince神经科学研究所正在探索AI在临床环境中的应用。他们一直在试验的一个项目,是用Voice Engine为因癌症或神经系统疾病导致语言障碍的个人提供帮助。
由于Voice Engine只需要15秒这样简短的音频样本,几位医生仅利用一位年轻患者曾经录制的视频,就为她恢复了因脑血管肿瘤而失去的流利语音。
这位患者现在声音听起来是下面的样子:
Hi everyone, this is what my voice sounds like using OpenAI's new text to speech model called Voice Engine. I was able to use just 15 seconds of a video that I made for a class project to be the reference audio source for the voice you hear right now. What do you think?
作为参考的是她健康时录制过的课堂项目视频声音:
在Voice Engine帮助下,她能够重拾曾经的声音,在餐厅给自己点一份薯条和草莓奶昔:
Can I please have a number one with large fries and with a strawberry shake?


构建Voice Engine的安全问题

对于近期合成语音引发的电信诈骗、版权侵害等社会风险问题,OpenAI也表示,开发过程中一直在与政府、媒体、教育等社会各界的美国和国际合作伙伴接触,保证听取和采纳反馈。并实施了一系列包括为Voice Engine生成的音频进行水印追踪来源、主动监控其使用情况等安全措施。

OpenAI把Voice Engine作为帮助社会理解技术前沿和AI所能实现的延续,现阶段选择预览但不广泛发布,未来会就是否以及如何大规模部署这项技术做出更明智的决定。

鉴于现在生成式AI在语音方面的巨大潜力,OpenAI也强烈指出全社会都要加强应对挑战的能力,并提出几点参考建议:

  1. 逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施。

  2. 探索保护个人声音在AI中使用的政策。

  3. 教育公众了解AI技术的能力和局限性,包括存在欺骗性AI内容的可能性。

  4. 加快开发和采用追踪视听内容来源的技术,以便随时明确您是与真人还是与AI互动。

  5. 无论OpenAI最终是否自己广泛部署这项技术,人们都要了解它的发展方向。期待继续与决策者、研究人员、开发者和创作者就合成语音的挑战和机遇展开对话。

此前Sam Altman表示会在官宣新的LLM前,逐步放出一系列新产品。如今的语音引擎Voice Engine应该就是其中之一。而且可以推测,今天放出的22年底预览版,经过一年半的训练,绝对已经进化成了更强大的样子。


OpenAI方方面面依然领跑?

AI爆料大神Jimmy Apples转发道:“我们最初在2022年底开发Voice Engine”就说明一切了,果然OpenAI又走在了前头。

网友大赞,表示AI的未来是语音而不是打字,如果这种声音复制和多语言切换技术集成到具身智能,人类与机器人对话将变得惊艳无比。

提起Hume AI刚发布的具有情感感知能力的对话式AI「EVI」,评论区也断言,OpenAI不会让Hume AI霸占聚光灯太久。

当然也有人说了,不公开发布都不算,继续等Sora。

继续有人抗议现在的GPT体验感越来越差。
(关于这一点,有小伙伴推测,为了节省算力服务更多用户,OpenAI一直在偷偷更换成更差的模型,在解决基础问题上表现大差不差即可,GPT-4现在只是个名字而已。不知大家怎么想?)

总体来说,今天OpenAI公开的这个语音模型Voice Engine,透露出这么几点讯息:
1. OpenAI早就开始了合成语音布局,现在分享的最早期版本只是小秀肌肉,内部应该已经强力迭代过。
2. 从OpenAI通篇官宣文来看,面对合成语音这个日益敏感的领域,短期内估计不会向公众推出了。
3. OpenAI现在非常注重塑造安全负责的企业形象,我们或许可以期待 Sora和Voice Engine以怎样的模式集成到下一代 GPT。
最后再插播一条突发新闻,The Information刚刚独家报道,据知情人士透露,微软和OpenAI将合力打造一台成本高达1000亿美元,拥有数百万个GPU的超级计算机「Stargate(星门)」。它将为OpenAI的人工智能提供动力,算力会比现在微软给OpenAI的支持直接提升几个量级。
昨天大家还在热议亚马逊给追加的Anthropic 27.5亿美元投资,今天OpenAI又来一个猛的——AI大战,真的是停不下来了。
点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
伦敦电台有关种族的辩论买1送2!到手3瓶!今年防晒就靠它!随记(四)—— 写文章爆赚27亿,霉霉和她的“地表最强”经济学hé bàng?hé bèng?刚创造历史,霉霉就被爆出一件闹心事!AI早知道|淘天集团自研大模型“淘宝星辰”上线;Gemini Pro1.5向所有人开放;Suno正式发布V3音乐生成模型骗子花5美元两分钟就能用AI克隆你家人语音 如何不上当受骗?OpenAI 推出语音引擎,只需15秒样本,即能重建任何人的声音夏日续命良品!低卡饱腹、消热解馋...这个夏天就靠它了!15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行让郭德纲飚英文霉霉说中文的AI,新一轮融资估值4.4亿美元,Benchmark领投跟 OpenAI 争夺「iPhone 合作权」的 Google,后天要发布什么才能 「弯道超车」霉霉首次登上“胡润榜”,霉霉经济学真不是盖的!Spotify内测AI歌单,霉霉歌曲重返TikTok,一季度全国营业性演出票房同比增长116.87%OpenAI CEO称GPT-5发布前会发一批新产品;Airbnb前高管将加入OpenAI担任高管丨AIGC日报伤你最深的人往往是你生命中最爱的人禁止打字,只能发语音, i人的“微信” 火遍硅谷让霉霉说中文的AI,顶级VC又投了4个亿万达引入600亿元投资,未设立对赌协议;美国升级对华芯片出口限制;OpenAI发布语音模型Voice Engine|邦早报OpenAI小规模开放语音生成模型,上海发放电脑家电补贴,搜狗发布硬件产品服务下线公告,这就是今天的其他大新闻!摆脱闷热!夏天No Bra的自由,就靠它了你的超级知识助手来了!讯飞星火支持长文本长图文长语音,生产力直线UP霉霉说地道中文,口型、卡点几乎完美,网友:配音时代结束了?OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折历史轻轻拐了个弯阻糖+燃脂+提神醒脑,2024的低卡计划就靠它了!!老妈在家庭群里发给媳妇的30秒语音,看得我真一言难尽...美股基本面 - 2024_01_31 * 晨报 * 2023年星巴克把更多新店开到了县城。矿业巨头淡水河谷去年铁矿石产量3.2全球首个海洋生物空间单细胞图谱出炉;OpenAI展示可克隆人声新技术丨科技早新闻浓人,nèng死淡人倒计时15天!CFA一级考前必刷210题曝光,通关就靠它了特朗普跻身全球富豪400强;诺和诺德减肥药成本5美元竟卖1000美元;OpenAI语音克隆:只需15秒音频样本|一周国际财经OpenAI藏了1年多的技术正式公开!15秒素材克隆声音,HeyGen也在用AI早知道|零一万物发布一站式 AI 工作平台;DeepSeek发布V2模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。