NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成
1. 风格建模和转换:高表现力语音具有高动态范围,通常难以控制和转换。许多合成模型只学到了输入数据的平均分布,并且缺乏细粒度风格建模能力;
2. 模型泛化:当预测时参考样本的声学风格分布与训练数据存在差异时,合成语音的质量和相似性往往会显著降低。
论文标题:
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech
https://arxiv.org/abs/2205.07211
https://github.com/Rongjiehuang/GenerSpeech
在今年的人工智能顶级会议 NeurIPS 2022 上,浙江大学与 SEA AI Lab 提出了全新的可建模未见风格(音色、情感和韵律)的可泛化语音合成模型 GenerSpeech。针对域外风格迁移的性能损失问题,提出了基于解耦表征学习的可泛化文本编码器和多层级风格编码器,实现了对未见语者、情感、韵律的可泛化零样本迁移与高质量无监督风格建模,在风格相似度上提升 1 倍偏好,解决高质量、可控性、可泛化的跨模态序列映射问题。
研究背景
2)风格小样本学习 [2] 则使用有限数据进行微调来适应新数据,或是采用元学习 [3] 来适应训练中没有见过的风格。该方法依赖于一个强有力的假设,即域外语音可用于模型微调训练,而这在实践中并不总是成立的。如何通过零次样本 (Zero-Shot)学习,迁移域外未见语音的风格仍然是一个开放的问题。
整体方案思路
3)为了重构高表现力语音样本中的细节,我们使用了基于流模型的后处理网络来微调输出,以生成细粒度、高质量样本。
2.1 可泛化文本编码器
我们使用可泛化的 wav2vec 2.0 模型 [5] 来捕捉全局风格特征,包括语者和情感声学表征。wav2vec 2.0 是用于语音表示学习的自监督框架,遵循预训练和微调的两阶段训练过程,并已被证明其学习高判别性表征的能力。同时,我们也试验了基于 CNN 的卷积风格编码器 [6],其对语者和情感的建模表现也足够突出。
为了捕捉细粒度韵律细节,我们考虑了帧、音素和词三级别的特征。多层级的风格编码器共享相同的模型结构:输入序列经过几个卷积层后,仅在音素和词级编码器进行池化操作,以实现不同层级的风格化。随后,将学习的隐层序列通过瓶颈层进行量化,以有效地消除非韵律信息。
我们引入了风格到文本表征对齐层(Style-To-Content Alignment),以将可变长度的风格表征与文本表征对齐,用于学习风格和文本表征的时间对齐。我们采用 Scaled Dot Product 作为注意力机制模块,并堆叠多层以获得更好的对齐性能,逐渐将表征风格化。最后,我们利用音高预测器(Style-Specific Predictor)来生成风格特定的韵律变化。
当文本与参考音频一致时,我们的模型可以泛化到域外未见风格(语者、情感、韵律等)的语音。在音频质量和风格相似性方面,与基准模型相比,GenerSpeech 获得了最高的主客观评测分数。多级风格编码器帮助生成与域外参考样本的风格更匹配的语音样本,清楚地反映正确的说话人特征、音高和共振峰范围。
参考文献
[1] Wang Y, Stanton D, Zhang Y, et al. Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis. In Proc. ICML 2018.
[2] Chen M, Tan X, Li B, et al. AdaSpeech: Adaptive Text to Speech for Custom Voice. In Proc. ICLR 2021
[3] Min D, Lee D B, Yang E, et al. Meta-stylespeech: Multi-speaker adaptive text-to-speech generation. In Proc. ICML 2021.
[4] Zhou K, Yang Y, Qiao Y, et al. Domain generalization with mixstyle. In Proc. ICLR 2021.
[5] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. In Proc. NeurIPS 2020.
[6] Wan L, Wang Q, Papir A, et al. Generalized end-to-end loss for speaker verification In Proc. ICASSP 2018.
[7] Ren Y, Liu J, Zhao Z. Portaspeech: Portable and high-quality generative text-to-speech. In Proc. NeurIPS 2021.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者