AI赋能视频译制,微软和人大提出自动视频译制技术VideoDubber
简介
目前,依赖人工方法的视频译制流程繁琐,通常制作周期长、成本高。未来借助人工智能技术,视频译制有望自动完成。近日,微软亚洲研究院和微软 Azure 认知服务团队联合中国人民大学高瓴人工智能学院提出了自动视频译制技术 VideoDubber,研究成果发表在 AAAI 2023 上。VideoDubber 在保证翻译质量的同时,提升了视频译制的同步性,大大简化了视频译制流程,降低了制作成本。
视频译制(video dubbing)一般指将视频中语音由原始语言翻译为目标语言,并保证翻译后语音与画面的一致性。通常视频译制可通过级联的多个系统组成,包括语音识别,机器翻译和语音合成。为保证翻译后的语音与原始视频对应,通常先在机器翻译阶段控制文本长度,再在语音合成阶段调整合成语音的长度(如图 1 所示)。
以往的工作通常只在机器翻译阶段控制翻译后的单词/字母的数量,而不考虑在不同语言中单词/字符发音持续时间的不同。在这篇工作中,研究团队提出了一个为视频配音任务量身定制的机器翻译方法 VideoDubber,它直接考虑翻译中每个 token 的语音时长(duration),以匹配目标语音的长度。
具体来说,研究团队通过使用时长信息来引导每个单词的预测,从而控制生成句子的语音长度。实验结果表明,VideoDubber 在四个语言方向(德语→英语、西班牙语→英语、汉语↔英语)上的视频译制同步性方面优于基线模型。此外,由于真实视频译制数据集的不足,研究团队还构建了一个从电影中收集的真实场景测试集,对视频译制任务进行综合评价。
VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing, AAAI 2023
Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei He, Sheng Zhao, Arul Menezes, Jiang Bian
https://arxiv.org/abs/2211.16934
https://speechresearch.github.io/videodubbing
模型架构
VideoDubber 的模型架构如图 2 所示。为了保证翻译结果的自然性和同步性,VideoDubber 期望在机器翻译阶段引入语音时长控制,进而减少语音合成阶段时长的过分调整影响自然度。因此,本工作重点研究如何在保持高翻译质量的同时,实现机器翻译的语音时长控制。具体来说,研究团队设计了两种时长相关的位置编码来在机器翻译过程中集成时长信息:绝对时长位置编码和相对时长位置编码。
绝对时长位置编码(absolute duration position embedding, abs PE):表示当前时间步长的累计语音时长信息;
相对时长位置编码(relative duration position embedding, rel PE),计算为绝对持续时间与总持续时间的比值,表示还剩多少持续时间供后续翻译使用。
通过这种方式,训练模型在进行预测时联合考虑语义和语音时长信息。为了获得每个目标词的语音持续时间,研究团队在 Transformer 的基础上引入了一个持续时间预测器,它是一个由卷积层组成的神经网络组件,被插入到解码器的顶部,利用解码器输出预测每个 token 的时长。在生成阶段,给定语音的总长度(即原始语音的长度),解码器将根据语义表示和每一步的持续时间信息以自回归方式确定适当的翻译结果。
此外,研究团队还考虑了引入 pause token。具体来说,VideoDubber 使用特殊的 pause token 来显式地模拟语音中的停顿,pause token 被插入源句和目标句中的每个单词(而不是子词)之间,其持续时长通过 Montreal forced alignment(MFA)获得,在不同的上下文中有所不同。
通过这种方式,VideoDubber 根据上下文在每个单词后预测适当持续时间的 pause token,为语音长度控制提供了更灵活的方法。同时,pause token 也可以增强韵律建模的能力。
实验评估
研究团队在四个语言方向:中文→英语(Zh-En),英语→中文(En-Zh),德语→英语(De-En),西班牙语→英语(Es-En)对 VideoDubber 进行了验证。由于缺乏真实的视频配音数据集,研究团队在语音翻译数据集上训练和测试 VideoDubber。
对于其他语言→英语的翻译,使用公开的语音翻译数据集 CVSS。对于英语到中文的翻译,使用来源于英语 TED 演讲的数据集 MuSTC 的 En-Zh 子集。由于 MustC 数据集在目标语言中没有相应的语音,研究团队使用一个训练好的中文语音合成模型 FastSpeech 2 来生成中文语音翻译的文本。
3.1 翻译质量与同步性
3.2 消融对比实验
为了验证语音时长相关的位置编码的有效性,研究团队在四个语言方向上对三种 position embedding 进行了消融研究。如表 2 所示,绝对时长位置编码(abs PE)和相对时长位置编码(rel PE)对于实现更好的翻译语音长度控制效果都是至关重要的。
▲ 表2:消融实验
3.3 真实场景视频译制测试集
考虑到现实世界视频译制数据集(即同时具有跨语言源语音和目标语音的电影)的稀缺,研究团队构建了一个从译制电影中收集的测试集,以提供对视频配音系统的全面评估。研究团队选择了 9 部热门的高质量英译中电影,包含爱情、动作、科幻等丰富的类型。他们从中截取了 42 段对话片段,提取原始语音文本及人工译制后的语音文本作为测试集。
为了比较相关方法在真实视频配音场景下的性能,研究团队在自己构建的真实测试集上进行了实验。结果如表 3 所示,在客观评价中,VideoDubber 的 BLEU 和 SLCp 得分均高于基线方法。实验证明,在考虑语音等时性的真实测试集中,本文提出的具有语音感知长度控制的 NMT 模型能够获得较好的等时性控制能力和翻译质量。
此外,主观评价从翻译质量、与原始电影片段的同步性,以及合成语音的整体质量对译制后的电影片段打分。结合主观评价和客观评价,我们观察到 VideoDubber 实现了更高的翻译质量和语音等时性。此外,VideoDubber 在自然度评分方面取得了显著的提高,这反映了自动配音视频的整体质量有显著提升。
▲ 表3:在真实视频译制场景数据集下VideoDubber的表现
▲ 视频译制Demo
总结
本文提出了一种基于语音长度控制的机器翻译模型 VideoDubber。为了确保翻译后的语音与原始视频保持良好的一致性,VideoDubber 直接考虑翻译中每个 token 的语音时长。
首先,VideoDubber 使用语音时长信息来指导翻译过程中每个单词的预测,将其表示为两种位置编码。其次,VideoDubber 引入了一个特殊的 pause token,并将其插入到每个单词之间,以增强韵律建模的能力,更灵活地控制语音长度。第三,研究团队构建了一个从译制电影中收集的真实场景测试集,为视频配音系统提供更准确的评估。实验结果表明,VideoDubber 在测试集,尤其是真实场景测试集上表现出了更好的翻译质量和等时控制能力。
更多语音方面的研究工作,请关注该研究团队的语音研究主页:
https://speechresearch.github.io
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
微信扫码关注该文公众号作者