Redian新闻
>
NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

科技



语音合成旨在根据文本合成特定说话人的语音。先进语音合成模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。个性化语音生成需求的增加对语音合成模型提出了挑战,尤其是在域外(OOD; Out-Of-Distribution)的训练未见场景中。
与通常可控的语音合成不同,域外文本到语音的风格转换旨在迁移域外参考样本(Custom Reference)的声学风格(例如,音色、情感和韵律等),进而合成高质量、高相似度语音,主要受到两个方面的挑战:

1. 风格建模和转换:高表现力语音具有高动态范围,通常难以控制和转换。许多合成模型只学到了输入数据的平均分布,并且缺乏细粒度风格建模能力;

2. 模型泛化:当预测时参考样本的声学风格分布与训练数据存在差异时,合成语音的质量和相似性往往会显著降低。

论文标题:

GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

论文链接:

https://arxiv.org/abs/2205.07211

代码链接:

https://github.com/Rongjiehuang/GenerSpeech


在今年的人工智能顶级会议 NeurIPS 2022 上,浙江大学与 SEA AI Lab 提出了全新的可建模未见风格(音色、情感和韵律)的可泛化语音合成模型 GenerSpeech。针对域外风格迁移的性能损失问题,提出了基于解耦表征学习的可泛化文本编码器和多层级风格编码器,实现了对未见语者、情感、韵律的可泛化零样本迁移与高质量无监督风格建模,在风格相似度上提升 1 倍偏好,解决高质量、可控性、可泛化的跨模态序列映射问题。




研究背景

可泛化语音合成的旨在生成域外风格(音色、情感和韵律)的语音,面临以下挑战:1)高表现力语音中的动态风格特征难以建模;2)模型应足够鲁棒以泛化于音色、情感和韵律未见的域外语音。
研究人员提出了几种建模和传递风格属性的方法:1)全局风格转换使用基于全局特征 [1](Global Style Token)建模语音风格。2)细粒度隐变量风格则采用 VAE 来表示细粒度韵律变量,为每个音素提供不同的韵律特征。然而,这些方法在捕捉不同的风格特征方面非常有限,无法同时准确迁移的语者、情感和韵律波动。
研究人员研究了提高模型对未见风格(语者、韵律、情感等)语音泛化能力的方法:
1)数据驱动方法。提高模型鲁棒性的一种流行方法是在大数据集上进行预训练,以扩展数据分布。但这种数据饥饿的方法需要许多数据样本,这通常是昂贵的;

2)风格小样本学习 [2] 则使用有限数据进行微调来适应新数据,或是采用元学习 [3] 来适应训练中没有见过的风格。该方法依赖于一个强有力的假设,即域外语音可用于模型微调训练,而这在实践中并不总是成立的。如何通过零次样本 (Zero-Shot)学习,迁移域外未见语音的风格仍然是一个开放的问题。




整体方案思路

域外未见语音(OOD; Out-Of-Distribution)的风格迁移,旨在生成与参考语音的风格(例如,说话者身份、情感和韵律)高度相似的样本,该域外参考语音具有与训练数据不同的声学条件,是训练不可见的。
实现更好泛化性的一种直观方法,是通过解耦表示学习将模型分解为领域不可知 (Domain-Agnostic)和领域特定(Domain-Specific)的部分。因此,为了提高文本到语音合成中的通用性,我们设计了几种方法来分别建模语音中的风格不可知(语言内容)和风格特定(例如,语者、情感和韵律)成分:
1)为了提升模型泛化性,我们提出了混合风格层(MSLN)来消除语言内容表示中的风格信息。
2)为了增强建模和传递风格属性,我们引入了多级(Multi-Level)风格编码器,该编码器由语者和情感特征的全局编码器,以及细粒度风格建模的三个(帧级、音素级和词级)局部编码器组成。

3)为了重构高表现力语音样本中的细节,我们使用了基于流模型的后处理网络来微调输出,以生成细粒度、高质量样本。


2.1 可泛化文本编码器

源域和目标域之间的分布差异通常阻碍了模型的泛化能力。我们提出的混合风格层归一化来消除语音序列中的风格信息,以防止来自具有域外(OOD)自定义语音的话语的风格转换中的退化,并预测风格不可知的韵律变化。
用于说话人自适应的条件层归一化可以基于样式嵌入,自适应地执行归一化输入特征的尺度和偏移。这里,两个简单的线性层 将风格嵌入 作为输入,并分别输出比例和偏移向量:
为了解耦风格信息并学习风格不可知的文本表征,一个简单的解决方案是以不匹配、混淆的的风格信息为条件扰动文本序列,并阻止其生成风格一致的文本表征。我们利用领域泛化的最新进展 [4],通过扰动训练样本中的风格信息,设计了混合风格层归一化,以提升模型泛化性:

最后,我们采用音高预测器(Style-Agonistic Predictor)来预测风格不可知的韵律变化。通过在可泛化的文本编码器中使用混合风格层归一化,风格不可知(语言内容)和风格特定(例如,说话者身份、情感和韵律)信息相分离,提高语音合成模型的泛化性。
2.2 多级风格建模编码器

我们使用可泛化的 wav2vec 2.0 模型 [5] 来捕捉全局风格特征,包括语者和情感声学表征。wav2vec 2.0 是用于语音表示学习的自监督框架,遵循预训练和微调的两阶段训练过程,并已被证明其学习高判别性表征的能力。同时,我们也试验了基于 CNN 的卷积风格编码器 [6],其对语者和情感的建模表现也足够突出。

为了捕捉细粒度韵律细节,我们考虑了帧、音素和词三级别的特征。多层级的风格编码器共享相同的模型结构:输入序列经过几个卷积层后,仅在音素和词级编码器进行池化操作,以实现不同层级的风格化。随后,将学习的隐层序列通过瓶颈层进行量化,以有效地消除非韵律信息。

我们引入了风格到文本表征对齐层(Style-To-Content Alignment),以将可变长度的风格表征与文本表征对齐,用于学习风格和文本表征的时间对齐。我们采用 Scaled Dot Product 作为注意力机制模块,并堆叠多层以获得更好的对齐性能,逐渐将表征风格化。最后,我们利用音高预测器(Style-Specific Predictor)来生成风格特定的韵律变化。

高表现力语音通常包含丰富且高动态的细节,然而广泛应用的 Transformer 解码器很难生成高清晰度样本。因此为了进一步提高合成样本的质量和相似性,我们引入了基于流模型 [7] 的后处理网络来细化解码器输出。



实验结果

当文本与参考音频一致时,我们的模型可以泛化到域外未见风格(语者、情感、韵律等)的语音。在音频质量和风格相似性方面,与基准模型相比,GenerSpeech 获得了最高的主客观评测分数。多级风格编码器帮助生成与域外参考样本的风格更匹配的语音样本,清楚地反映正确的说话人特征、音高和共振峰范围。

我们还探讨了模型在非并行风格迁移中的鲁棒性,即模型根据参考样本的韵律风格合成具有不同文本内容的语音。相对于基线,评分者更偏好于本模型合成的样本结果。所提出的多级风格编码器显著改进了模型的风格感知能力,允许在域外未见参考样本的指导下,完成任一文本的高质量、高表现力风格迁移。

参考文献

[1] Wang Y, Stanton D, Zhang Y, et al. Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis. In Proc. ICML 2018.

[2] Chen M, Tan X, Li B, et al. AdaSpeech: Adaptive Text to Speech for Custom Voice. In Proc. ICLR 2021

[3] Min D, Lee D B, Yang E, et al. Meta-stylespeech: Multi-speaker adaptive text-to-speech generation. In Proc. ICML 2021.

[4] Zhou K, Yang Y, Qiao Y, et al. Domain generalization with mixstyle. In Proc. ICLR 2021.

[5] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. In Proc. NeurIPS 2020.

[6] Wan L, Wang Q, Papir A, et al. Generalized end-to-end loss for speaker verification In Proc. ICASSP 2018.

[7] Ren Y, Liu J, Zhao Z. Portaspeech: Portable and high-quality generative text-to-speech. In Proc. NeurIPS 2021.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
清华提出首个退化可感知的展开式Transformer|NeurIPS 2022ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成资本主义帝国瓜分不均爆发一战Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)康德的《纯粹理性批判》之写作目的NeurIPS 2022 | 香港理工提出OGC:首个无监督3D点云物体实例分割算法NeurIPS 2022 | 中科院&图森未来提出FSD:全稀疏的3D目标检测器浙大开源快速扩散语音合成模型FastDiff和ProDiffBLSTM-RNN、Deep Voice、Tacotron…你都掌握了吗?一文总结语音合成必备经典模型(一)NeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSetNeurIPS 2022 | 用离散对抗训练提高视觉模型的鲁棒性和泛化能力NeurIPS 2022 | 序列(推荐)模型分布外泛化:因果视角与求解自制九层塔甜酱NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息警报四起,危机四伏。。NeurIPS 2022 | Stable Diffusion采样速度翻倍!清华提出扩散模型高效求解器NeurIPS 2022 | 面向图数据分布外泛化的因果表示学习定制音库成本骤降98%,PaddleSpeech小样本语音合成方案重磅来袭!NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法NeurIPS 2022 | 基于最优子集的神经集合函数学习方法EquiVSetNeurIPS 2022 | 清华提出首个退化可感知的展开式TransformerNeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习NeurIPS 2022 | 阿里浙大提出利用更典型的特征来提升分布外检测性能成为巴黎女人 《悠悠岁月》(4)只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型从NeurIPS 2022看域泛化:大规模实验分析和模型平均NeurIPS 2022 | 生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别NeurIPS 2022 | 将通信带宽降低至十万分之一,上海交大提出新一代协作感知方法NeurIPS 2022 | 马里兰、北大等机构提出量子算法用于采样对数凹分布和估计归一化常数
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。