3秒克隆你的声音,微软推出DALL-E表亲VALL-E
机器之心报道
DALL-E 已经能够很好地从文本生成图像,那么如何高效地实现语音合成呢?本文带你看微软最新推出的语音合成模型 ——VALL-E,它的效果将惊掉你的下巴。
论文地址:https://arxiv.org/pdf/2301.02111.pdf 语音 Demo 地址:https://valle-demo.github.io/
它包含丰富的 speaker 信息和声学信息,与 HuBERT 编码相比,可以在重构中保持 speaker 特征一致。 有现成的编解码器,可以将离散 token 转换为波形,而无需像在频谱上运行的基于 VQ 的方法那样对声码器训练做额外的工作。 它能减少时间步长,提高效率,解决 µ-law 转换中的问题。
VALL-E:研究者的主要兴趣是为未见过的 speaker 生成给定的内容,需要给该模型一个文本句子、一段 enrolled 语音及其对应的转录。 VALL-E-continual:在此设置中,研究者使用整个转录和语音的前 3 秒分别作为音素和声音 prompt,并要求模型生成后续部分。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章