AI赋能视频译制，微软和人大提出自动视频译制技术VideoDubber

2022-12-25 11:12

简介

目前，依赖人工方法的视频译制流程繁琐，通常制作周期长、成本高。未来借助人工智能技术，视频译制有望自动完成。近日，微软亚洲研究院和微软 Azure 认知服务团队联合中国人民大学高瓴人工智能学院提出了自动视频译制技术 VideoDubber，研究成果发表在 AAAI 2023 上。VideoDubber 在保证翻译质量的同时，提升了视频译制的同步性，大大简化了视频译制流程，降低了制作成本。

视频译制（video dubbing）一般指将视频中语音由原始语言翻译为目标语言，并保证翻译后语音与画面的一致性。通常视频译制可通过级联的多个系统组成，包括语音识别，机器翻译和语音合成。为保证翻译后的语音与原始视频对应，通常先在机器翻译阶段控制文本长度，再在语音合成阶段调整合成语音的长度（如图 1 所示）。

▲ 图1：英文→中文的视频译制示例。在翻译原文“A painting is much more than the simple sum of its parts”。在机器翻译阶段，其对应的原始语音时长为3.01s。以往的方法仅在翻译阶段控制字数，可能会导致生成的语音与原始语音时长相差很大。VideoDubber直接考虑语音长度，从而生成时长非常接近原始语音的翻译结果。在此基础上，语音合成模型只需要稍作调整就能得到理想的语音翻译结果。

以往的工作通常只在机器翻译阶段控制翻译后的单词/字母的数量，而不考虑在不同语言中单词/字符发音持续时间的不同。在这篇工作中，研究团队提出了一个为视频配音任务量身定制的机器翻译方法 VideoDubber，它直接考虑翻译中每个 token 的语音时长（duration），以匹配目标语音的长度。

具体来说，研究团队通过使用时长信息来引导每个单词的预测，从而控制生成句子的语音长度。实验结果表明，VideoDubber 在四个语言方向（德语→英语、西班牙语→英语、汉语↔英语）上的视频译制同步性方面优于基线模型。此外，由于真实视频译制数据集的不足，研究团队还构建了一个从电影中收集的真实场景测试集，对视频译制任务进行综合评价。

论文标题：

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing, AAAI 2023

论文作者：

Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei He, Sheng Zhao, Arul Menezes, Jiang Bian

论文链接：

https://arxiv.org/abs/2211.16934

Demo链接：

https://speechresearch.github.io/videodubbing

代码链接：

https://github.com/microsoft/NeuralSpeech/tree/master/VideoDubber

模型架构

VideoDubber 的模型架构如图 2 所示。为了保证翻译结果的自然性和同步性，VideoDubber 期望在机器翻译阶段引入语音时长控制，进而减少语音合成阶段时长的过分调整影响自然度。因此，本工作重点研究如何在保持高翻译质量的同时，实现机器翻译的语音时长控制。具体来说，研究团队设计了两种时长相关的位置编码来在机器翻译过程中集成时长信息：绝对时长位置编码和相对时长位置编码。

绝对时长位置编码（absolute duration position embedding, abs PE）：表示当前时间步长的累计语音时长信息；

相对时长位置编码（relative duration position embedding, rel PE），计算为绝对持续时间与总持续时间的比值，表示还剩多少持续时间供后续翻译使用。

通过这种方式，训练模型在进行预测时联合考虑语义和语音时长信息。为了获得每个目标词的语音持续时间，研究团队在 Transformer 的基础上引入了一个持续时间预测器，它是一个由卷积层组成的神经网络组件，被插入到解码器的顶部，利用解码器输出预测每个 token 的时长。在生成阶段，给定语音的总长度（即原始语音的长度），解码器将根据语义表示和每一步的持续时间信息以自回归方式确定适当的翻译结果。

此外，研究团队还考虑了引入 pause token。具体来说，VideoDubber 使用特殊的 pause token 来显式地模拟语音中的停顿，pause token 被插入源句和目标句中的每个单词（而不是子词）之间，其持续时长通过 Montreal forced alignment（MFA）获得，在不同的上下文中有所不同。

通过这种方式，VideoDubber 根据上下文在每个单词后预测适当持续时间的 pause token，为语音长度控制提供了更灵活的方法。同时，pause token 也可以增强韵律建模的能力。

▲ 图2：VideoDubber的整体架构

实验评估

研究团队在四个语言方向：中文→英语（Zh-En），英语→中文（En-Zh），德语→英语（De-En），西班牙语→英语（Es-En）对 VideoDubber 进行了验证。由于缺乏真实的视频配音数据集，研究团队在语音翻译数据集上训练和测试 VideoDubber。

对于其他语言→英语的翻译，使用公开的语音翻译数据集 CVSS。对于英语到中文的翻译，使用来源于英语 TED 演讲的数据集 MuSTC 的 En-Zh 子集。由于 MustC 数据集在目标语言中没有相应的语音，研究团队使用一个训练好的中文语音合成模型 FastSpeech 2 来生成中文语音翻译的文本。

3.1 翻译质量与同步性

表 1 中展示了四个语言方向上不同模型的机器翻译质量和长度控制能力。同时还列出了直接使用标准目标语音的时长控制翻译的结果，以显示 VideoDubber 的性能上限。使用 BLEU 衡量翻译质量，Speech Length Compliant（SLC）衡量翻译后语音与原始语音的等时性。

指时长比例（ratio）在内的句子比例。其中，

，，分别代表原始语音和翻译后语音第，个 token 的语音时长。

表 1 中的显示 VideoDubber 的语音时长控制能力始终优于的基线方法，这表明 VideoDubber 的语音相关的长度控制比直接控制单词/字符数量实现了更好的语音时长等时性和同步性。

▲ 表1：VideoDubber 与其他基线方法在四个语言方向的 BLEU 和得分比较，这里我们分别设置 p=0.4, 0.2。VideoDubber （Source）, VideoDubber（Target）分别指使用原始语音长度和正确的目标语音长度进行长度控制。

3.2 消融对比实验

为了验证语音时长相关的位置编码的有效性，研究团队在四个语言方向上对三种 position embedding 进行了消融研究。如表 2 所示，绝对时长位置编码（abs PE）和相对时长位置编码（rel PE）对于实现更好的翻译语音长度控制效果都是至关重要的。

▲ 表2：消融实验

3.3 真实场景视频译制测试集

考虑到现实世界视频译制数据集（即同时具有跨语言源语音和目标语音的电影）的稀缺，研究团队构建了一个从译制电影中收集的测试集，以提供对视频配音系统的全面评估。研究团队选择了 9 部热门的高质量英译中电影，包含爱情、动作、科幻等丰富的类型。他们从中截取了 42 段对话片段，提取原始语音文本及人工译制后的语音文本作为测试集。

为了比较相关方法在真实视频配音场景下的性能，研究团队在自己构建的真实测试集上进行了实验。结果如表 3 所示，在客观评价中，VideoDubber 的 BLEU 和 SLCp 得分均高于基线方法。实验证明，在考虑语音等时性的真实测试集中，本文提出的具有语音感知长度控制的 NMT 模型能够获得较好的等时性控制能力和翻译质量。

此外，主观评价从翻译质量、与原始电影片段的同步性，以及合成语音的整体质量对译制后的电影片段打分。结合主观评价和客观评价，我们观察到 VideoDubber 实现了更高的翻译质量和语音等时性。此外，VideoDubber 在自然度评分方面取得了显著的提高，这反映了自动配音视频的整体质量有显著提升。

▲ 表3：在真实视频译制场景数据集下VideoDubber的表现

▲ 视频译制Demo

总结

本文提出了一种基于语音长度控制的机器翻译模型 VideoDubber。为了确保翻译后的语音与原始视频保持良好的一致性，VideoDubber 直接考虑翻译中每个 token 的语音时长。

首先，VideoDubber 使用语音时长信息来指导翻译过程中每个单词的预测，将其表示为两种位置编码。其次，VideoDubber 引入了一个特殊的 pause token，并将其插入到每个单词之间，以增强韵律建模的能力，更灵活地控制语音长度。第三，研究团队构建了一个从译制电影中收集的真实场景测试集，为视频配音系统提供更准确的评估。实验结果表明，VideoDubber 在测试集，尤其是真实场景测试集上表现出了更好的翻译质量和等时控制能力。

更多语音方面的研究工作，请关注该研究团队的语音研究主页：

https://speechresearch.github.io

更多阅读