Redian新闻
>
语音合成模型NaturalSpeech 2:只需几秒提示语音即可定制语音和歌声

语音合成模型NaturalSpeech 2:只需几秒提示语音即可定制语音和歌声

科技


(本文阅读时间:9分钟)


编者按:如果问华语乐坛近期产量最高的歌手是谁,“AI 孙燕姿”一定有姓名。歌迷们先用歌手的音色训练 AI,再通过模型将其他歌曲转换成以歌手音色“翻唱”的歌曲。语音合成技术是“AI 孙燕姿”的背后支持。广义的语音合成包含文本到语音合成(Text to Speech,TTS)、声音转换等。在 TTS 领域,微软亚洲研究院机器学习组和微软 Azure 语音团队早已深耕多年,并在近期推出了语音合成模型 NaturalSpeech 2,只需几秒提示语音即可定制语音和歌声,省去了传统 TTS 前期训练过程,实现了零样本语音合成的跨越式发展。


文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。多年来,微软亚洲研究院机器学习组和微软 Azure 语音团队持续关注语音合成领域的研究与相关产品的研发。为了合成既自然又高质量的人类语音,NaturalSpeech 研究项目(https://aka.ms/speechresearch)应运而生。


NaturalSpeech 的研究分为以下几个阶段:


1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,研究团队在2022年推出了 NaturalSpeech 1,在 LJSpeech 语音合成数据集上达到了人类录音水平的音质


2)第二阶段,高效地实现多样化的语音合成,包含不同的说话人、韵律、风格等。为此,该联合研究团队在2023年推出了 NaturalSpeech 2,利用扩散模型(diffusion model)实现了 zero-shot 的语音合成,只需要几秒钟的示例语音(speech prompt)模型就能合成任何说话人、韵律、风格的语音,实现了零样本语音合成的重要突破,为语音合成技术的未来发展带来了无限可能。


3)当前,研究团队正在开展第三阶段的研究,为达到高自然度(高质量且多样化)的语音合成这一目标,乘势而上,开创新局面。


三大创新设计,让NaturalSpeech 2脱颖而出


于近期发布的新一代语音合成大模型 NaturalSpeech 2,经历了上万小时、多说话人的语音数据集训练,并采用了 zero-shot(预测时只提供几秒钟的目标示例语音)的方式合成新的说话人、韵律、风格的语音,以实现多样化的语音合成。



论文链接:

https://arxiv.org/abs/2304.09116


项目演示:

https://speechresearch.github.io/naturalspeech2/





要想达到良好的 zero-shot 训练效果,面临极大挑战。先前的方法是将语音量化成离散 token,并用自回归语言模型进行建模(例如 AudioLM)。但这种方法存在很大的局限性:自回归模型面临严重的错误传播(error-propagation)问题,导致生成语音质量低下、鲁棒性差,韵律失调以及重复、漏词等问题。同时还容易陷入离散 token 量化和自回归建模的两难困境(如表1所示),即要么离散 token 难以以较高质量还原语音,要么离散 token 难以预测。


表1:先前语音合成系统的两难处境


NaturalSpeech 2 提出了一系列创新设计,如图1所示,完美地有效规避了先前的局限,实现了零样本语音合成的重要突破。考虑到语音波形的复杂性和高维度,微软亚洲研究院机器学习组与 Yoshua Bengio 共同提出的 Regeneration Learning 范式,为这个问题提供了创新的参考答案。


图1:NaturalSpeech 2 系统概览


NaturalSpeech 2 首先利用神经语音编解码器(Neural Audio Codec,如图2所示)的编码器(encoder),将语音波形转换为连续向量并用解码器(decoder)重建语音波形,再运用潜在扩散模型(Latent Diffusion Model)以非自回归的方式从文本预测连续向量。在推理时,利用潜在扩散模型和神经语音解码器从文本生成语音的波形。


图2:NaturalSpeech 2 中的 Neural Audio Codec 概览


相比先前的语音合成系统,NaturalSpeech 2 有以下几大优势,如表2所示:


表2:NaturalSpeech 2 相比先前语音合成系统的优势


1. 使用连续向量替代离散 token。离散 token 会导致序列长度过长(例如,使用8个残差向量量化器,序列长度会增加8倍),增加了预测的难度。而连续向量可以缩短序列长度,同时增加细粒度重建语音所需要的细节信息。


2. 采用扩散模型替代自回归语言模型。通过非自回归的生成方式,能避免自回归模型中的错误累积所导致的韵律不稳定、重复吐次漏词等问题。


3. 引入语音提示机制,激发上下文学习能力。研究员们创新设计的语音提示机制(如图3所示),让扩散模型和时长/音高预测模块能够更高效地学习语音上下文,从而提升了零样本的预测能力。


图3:NaturalSpeech 2 中的语音提示机制


得益于以上设计,NaturalSpeech 2 生成的语音非常稳定、鲁棒,无需要复杂的两阶段模型来预测中间表征序列。同时,非自回归的方式和音高时长预测机制也赋予了 NaturalSpeech 2 扩展到语音之外的风格(例如歌声)的能力。


微软亚洲研究院高级研究员谭旭表示,语音合成是人工智能内容生成的一个非常重要的领域,该研究团队一直致力于构建高自然度的语音合成系统。NaturalSpeech 2 是继去年推出的 NaturalSpeech 后跨越的又一里程碑,利用大数据、大模型和零样本合成技术,极大地丰富了语音合成的音色、韵律、风格的多样性,使语音合成更自然更像人类。


NaturalSpeech 2的语音合成性能大检测


研究团队将 NaturalSpeech 2 的模型大小扩展到了400M,并基于4.4万小时的语音数据进行了训练。值得一提的是,即使 NaturalSpeech 2 与被模仿人“素昧平生”,只需几秒的语音提示, NaturalSpeech 2 输出的结果也可以在韵律/音色相似度、鲁棒性和音质方面都更优于先前的 TTS 系统。这一成果使得 NaturalSpeech 2 的性能达到了新高度,并有望为未来的 TTS 研究提供基础性参考。


首先,在音质方面,NaturalSpeech 2 在 zero-shot 条件合成的语音显著优于先前的 TTS 系统,如表3和表4所示。


表3:NaturalSpeech 2 和先前 TTS 系统的主观质量得分(CMOS)对比


表4:NaturalSpeech 2 和 VALL-E 的主观质量得分(CMOS)对比


同时,在相似度方面,NaturalSpeech 2 也能更好地生成和语音提示相似的语音,如表5和表6所示(评估指标详细介绍参见论文)。


表5:NaturalSpeech 2 与语音提示的韵律相似度比较


表6:NaturalSpeech 2 的主观相似度评分 SMOS 结果


在稳定度方面,相较于既有的 TTS 模型,NaturalSpeech 2 的表现也更为优异,如表7和表8所示。


表7:NaturalSpeech 2 合成语音的词错误率


表8:NaturalSpeech 2 合成语音的可懂度测试


以下是零样本语音合成的示例:


输入文本:His death in this conjuncture was a public misfortune.



输入文本:Maybe we expected too much from the fixture.



研究员们还从互联网上收集了歌声数据,并将其与语音数据混合起来,共同训练模型。令人惊喜的是,无论是语音还是歌声提示,NaturalSpeech 2 都可以进行零样本歌声合成。欢迎点击链接:https://speechresearch.github.io/naturalspeech2/,一起听一听更多 AI 合成的语音和歌声吧!


随着合成语音质量的不断提升,确保 TTS 能被人们信赖是一个需要攻坚的问题。微软主动采取了一系列措施来预判和降低包括 TTS 在内的人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推进人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”6个负责任的人工智能原则(Responsible AI Principles),随后又发布负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。


未来,该研究团队将持续推动符合负责任的人工智能原则的语音合成大模型的研发,在更加多样化的场景中生成质量更高且更自然的语音,让语音合成技术可以赋能更多个人和组织。


更多研究成果请关注该团队研究主页 https://speechresearch.github.io/





在进行计算机科研工作和学习的日日夜夜,你或许有些科研中的问题难以开口问询,或许有些焦虑与情绪无处安放,或许在感到迷茫时需要咨询与支持。微软亚洲研究院树洞计划现已开启。你在计算机领域科研、学习、生活中遇到的难题,都可以随时随地倾倒在树洞里。后台会从树洞收到的内容中选择具有代表性的问题匹配到最同频的频道,邀请微软亚洲研究院的研究员们帮忙回答。作为一个半透明的树洞,部分问题与回应会通过微软亚洲研究院账号公开发表。


快来点击上图链接,把你的难题倾倒在树洞里吧!让我们将这些困难封存在过去,轻装上阵,继续科研新旅途!















你也许还想看:




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
超毁气质的不良体态,只需几分钟就能矫正?IEEE高级会员,IEEE中国联合会前任主席,IEEE北京分会前任主席冯进军当选北京“最美科技工作者”IEEE Education Week主题演讲 | 主讲人:IEEE主席Saifur Rahman猫咪日常 2023-03-11C轮融资近4亿,Perspectum的医疗AI产品卖到了28个国家【Church Park 2023排位+现房】【NEU/NEC/Berklee/BU/橙线/绿线】【Studio/1B/2B】《白内障手术》究竟能卖多少钱DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型网店模特危机,谷歌发布图片合成模型TryOnDiffusion【春游欧洲】(2)没见过三宝,岂敢称自己去过荷兰90%的妈妈都不知道,有效补钙每天只需几块钱,2年后孩子的身高超过同龄人NUWA系列再添新成员——超长视频生成模型NUWA-XLPrompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】北京内推 | 微软亚洲研究院机器学习组招聘语音合成方向研究实习生英伟达推出新AI模型Neuralangelo 可将视频转换为高精3D模型OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成巴黎市长将重修Châtelet 广场以方便行人我国自主培育的种禽首次出口;新研究认为地球形成或只需几百万年丨科技早新闻人手一个ChatGPT!微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型年薪60万的数据分析师工作保不住了?!阿里达摩院研究发现,改用GPT-4成本只需几千元脖子酸?肩膀痛?这四个动作能缓解,只需几分钟!分解后再合成,浙江大学联手字节跳动推出语音合成系统Mega-TTS【Church Park 2023排位+现房】【NEU/NEC/Berklee】【Studio$2820】Agustín Hernández:中美洲建筑背景下的未来主义巨构艾客素杜斯【城事】巴黎市长将重修Châtelet 广场以方便行人几张照片即可定制自己的3D化身,还能换装!南京大学发布AvatarBooth:3D模型的制作门槛被打下来了!建“女神群”发小视频赚钱,还可定制“女明星脸”,他栽了微软开源DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型我們夜裏的靈魂“AI孙燕姿”爆火后,Meta发布通用语音生成AI:可合成6种语言,支持多种语音功能微软宣布开源DeepSpeed-Chat ,训练提速15倍以上,有望实现人手一个ChatGPT?证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。