Redian新闻
>
AI赋能视频译制,微软和人大提出自动视频译制技术VideoDubber

AI赋能视频译制,微软和人大提出自动视频译制技术VideoDubber

科技





简介


目前,依赖人工方法的视频译制流程繁琐,通常制作周期长、成本高。未来借助人工智能技术,视频译制有望自动完成。近日,微软亚洲研究院和微软 Azure 认知服务团队联合中国人民大学高瓴人工智能学院提出了自动视频译制技术 VideoDubber,研究成果发表在 AAAI 2023 上。VideoDubber 在保证翻译质量的同时,提升了视频译制的同步性,大大简化了视频译制流程,降低了制作成本。


视频译制(video dubbing)一般指将视频中语音由原始语言翻译为目标语言,并保证翻译后语音与画面的一致性。通常视频译制可通过级联的多个系统组成,包括语音识别,机器翻译和语音合成。为保证翻译后的语音与原始视频对应,通常先在机器翻译阶段控制文本长度,再在语音合成阶段调整合成语音的长度(如图 1 所示)。


▲ 图1:英文→中文的视频译制示例。在翻译原文“A painting is much more than the simple sum of its parts”。在机器翻译阶段,其对应的原始语音时长为3.01s。以往的方法仅在翻译阶段控制字数,可能会导致生成的语音与原始语音时长相差很大。VideoDubber直接考虑语音长度,从而生成时长非常接近原始语音的翻译结果。在此基础上,语音合成模型只需要稍作调整就能得到理想的语音翻译结果。


以往的工作通常只在机器翻译阶段控制翻译后的单词/字母的数量,而不考虑在不同语言中单词/字符发音持续时间的不同。在这篇工作中,研究团队提出了一个为视频配音任务量身定制的机器翻译方法 VideoDubber,它直接考虑翻译中每个 token 的语音时长(duration),以匹配目标语音的长度。


具体来说,研究团队通过使用时长信息来引导每个单词的预测,从而控制生成句子的语音长度。实验结果表明,VideoDubber 在四个语言方向(德语→英语、西班牙语→英语、汉语↔英语)上的视频译制同步性方面优于基线模型。此外,由于真实视频译制数据集的不足,研究团队还构建了一个从电影中收集的真实场景测试集,对视频译制任务进行综合评价。


论文标题:

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing, AAAI 2023

论文作者:

Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei He, Sheng Zhao, Arul Menezes, Jiang Bian

论文链接:

https://arxiv.org/abs/2211.16934

Demo链接:

https://speechresearch.github.io/videodubbing

代码链接:
https://github.com/microsoft/NeuralSpeech/tree/master/VideoDubber




模型架构


VideoDubber 的模型架构如图 2 所示。为了保证翻译结果的自然性和同步性,VideoDubber 期望在机器翻译阶段引入语音时长控制,进而减少语音合成阶段时长的过分调整影响自然度。因此,本工作重点研究如何在保持高翻译质量的同时,实现机器翻译的语音时长控制具体来说,研究团队设计了两种时长相关的位置编码来在机器翻译过程中集成时长信息:绝对时长位置编码和相对时长位置编码。


绝对时长位置编码(absolute duration position embedding, abs PE):表示当前时间步长的累计语音时长信息;



相对时长位置编码(relative duration position embedding, rel PE),计算为绝对持续时间与总持续时间的比值,表示还剩多少持续时间供后续翻译使用。



通过这种方式,训练模型在进行预测时联合考虑语义和语音时长信息。为了获得每个目标词的语音持续时间,研究团队在 Transformer 的基础上引入了一个持续时间预测器,它是一个由卷积层组成的神经网络组件,被插入到解码器的顶部,利用解码器输出预测每个 token 的时长。在生成阶段,给定语音的总长度(即原始语音的长度),解码器将根据语义表示和每一步的持续时间信息以自回归方式确定适当的翻译结果。


此外,研究团队还考虑了引入 pause token。具体来说,VideoDubber 使用特殊的 pause token 来显式地模拟语音中的停顿,pause token 被插入源句和目标句中的每个单词(而不是子词)之间,其持续时长通过 Montreal forced alignment(MFA)获得,在不同的上下文中有所不同。


通过这种方式,VideoDubber 根据上下文在每个单词后预测适当持续时间的 pause token,为语音长度控制提供了更灵活的方法。同时,pause token 也可以增强韵律建模的能力。


▲ 图2:VideoDubber的整体架构




实验评估


研究团队在四个语言方向:中文→英语(Zh-En),英语→中文(En-Zh),德语→英语(De-En),西班牙语→英语(Es-En)对 VideoDubber 进行了验证。由于缺乏真实的视频配音数据集,研究团队在语音翻译数据集上训练和测试 VideoDubber。


对于其他语言→英语的翻译,使用公开的语音翻译数据集 CVSS。对于英语到中文的翻译,使用来源于英语 TED 演讲的数据集 MuSTC 的 En-Zh 子集。由于 MustC 数据集在目标语言中没有相应的语音,研究团队使用一个训练好的中文语音合成模型 FastSpeech 2 来生成中文语音翻译的文本。


3.1 翻译质量与同步性


表 1 中展示了四个语言方向上不同模型的机器翻译质量和长度控制能力。同时还列出了直接使用标准目标语音的时长控制翻译的结果,以显示 VideoDubber 的性能上限。使用 BLEU 衡量翻译质量,Speech Length Compliant(SLC)衡量翻译后语音与原始语音的等时性。
指时长比例(ratio)在内的句子比例。其中,分别代表原始语音和翻译后语音第 个 token 的语音时长。
表 1 中的 显示 VideoDubber 的语音时长控制能力始终优于的基线方法,这表明 VideoDubber 的语音相关的长度控制比直接控制单词/字符数量实现了更好的语音时长等时性和同步性。
▲ 表1:VideoDubber 与其他基线方法在四个语言方向的 BLEU 和得分比较,这里我们分别设置 p=0.4, 0.2。VideoDubber (Source), VideoDubber(Target)分别指使用原始语音长度和正确的目标语音长度进行长度控制。

3.2 消融对比实验


为了验证语音时长相关的位置编码的有效性,研究团队在四个语言方向上对三种 position embedding 进行了消融研究。如表 2 所示,绝对时长位置编码(abs PE)和相对时长位置编码(rel PE)对于实现更好的翻译语音长度控制效果都是至关重要的。


▲ 表2:消融实验


3.3 真实场景视频译制测试集


考虑到现实世界视频译制数据集(即同时具有跨语言源语音和目标语音的电影)的稀缺,研究团队构建了一个从译制电影中收集的测试集,以提供对视频配音系统的全面评估。研究团队选择了 9 部热门的高质量英译中电影,包含爱情、动作、科幻等丰富的类型。他们从中截取了 42 段对话片段,提取原始语音文本及人工译制后的语音文本作为测试集。


为了比较相关方法在真实视频配音场景下的性能,研究团队在自己构建的真实测试集上进行了实验。结果如表 3 所示,在客观评价中,VideoDubber 的 BLEU 和 SLCp 得分均高于基线方法。实验证明,在考虑语音等时性的真实测试集中,本文提出的具有语音感知长度控制的 NMT 模型能够获得较好的等时性控制能力和翻译质量。


此外,主观评价从翻译质量、与原始电影片段的同步性,以及合成语音的整体质量对译制后的电影片段打分。结合主观评价和客观评价,我们观察到 VideoDubber 实现了更高的翻译质量和语音等时性。此外,VideoDubber 在自然度评分方面取得了显著的提高,这反映了自动配音视频的整体质量有显著提升。


▲ 表3:在真实视频译制场景数据集下VideoDubber的表现



▲ 视频译制Demo




总结


本文提出了一种基于语音长度控制的机器翻译模型 VideoDubber。为了确保翻译后的语音与原始视频保持良好的一致性,VideoDubber 直接考虑翻译中每个 token 的语音时长。


首先,VideoDubber 使用语音时长信息来指导翻译过程中每个单词的预测,将其表示为两种位置编码。其次,VideoDubber 引入了一个特殊的 pause token,并将其插入到每个单词之间,以增强韵律建模的能力,更灵活地控制语音长度。第三,研究团队构建了一个从译制电影中收集的真实场景测试集,为视频配音系统提供更准确的评估。实验结果表明,VideoDubber 在测试集,尤其是真实场景测试集上表现出了更好的翻译质量和等时控制能力。


更多语音方面的研究工作,请关注该研究团队的语音研究主页:

https://speechresearch.github.io



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
促进“三链”融合 2023航空航天与智能视觉产业高质量发展大会在浙江诸暨成功召开香港外卖骑手月入三万多是什么水平;为得到动视暴雪,微软绑上任天堂第一次与香港资本家谈判(有关港英教科书出版)“数字化转型”大提速!八大券商热议科技赋能微软否认超万人大裁员;特斯拉自动驾驶视频造假:是马斯克要求的;滴滴App重新上架安卓市场|Q资讯中国开源社区健康案例——Apache Dubbo社区一次 Dubbo 线程上下文类加载器的疑难杂症分析午门城下的沈从文实习快讯|摩根斯丹利开放学徒制技术专业学位课程下一代AI需要怎样的芯片?微软和谷歌斗法!已发现16例本土XBB病例!中疾控称3个月内XBB变异株大规模流行的可能性极低!清华发现纳米抗体,对XBB、BF.7等均保持活性注定失败的红朝禅让制微软邀任天堂签COD合作10年协议,微软还要学微信做超级APP国内首次检出XBB.1.5,Model Y涨价2000元,微软承认新版Bing缺陷,钉钉可定时发送消息,这就是今天的其它大新闻!欧美同学会@学长,相约诸暨,这场航空航天与智能视觉产业盛会不容错过马化腾称内部贪腐触目惊心,卢伟冰晋升小米总裁,微信更新冬至限时状态,微软因隐私机制被罚4.45亿,这就是今天的其它大新闻!忙忙碌碌星期三今日实习|摩根斯丹利开放学徒制技术专业学位课程2022傅雷翻译出版奖获奖者揭晓 Le palmarès du Prix Fu Lei 2022 dévoilé英国给微软挖大坑、拆分动视暴雪,动视暴雪CEO:腾讯字节才是对手为了收购动视暴雪,微软已经急眼了XBB毒株迅猛来袭,XBB和XBB.1.5到底是什么?各国的传播情况如何?盐湖城接送-黄石公园6日游:轻奢品质小团+黄石湖自驾小艇+大提顿国家公园漂流+大提顿山缆车 YA6斥资687亿美元收购动视暴雪,微软的底气在哪里?奇声(IQDubbing)-- 面向影视剧的AI配音技术XBB毒株是什么?“阳康”后还会感染XBB毒株吗?关于XBB毒株,这些事情你需要知道!聚焦丨打造智能视觉产业新高地 2023浙江诸暨智能视觉平行论坛综述微软整合ChatGPT推出新版Bing,细数微软和OpenAI的前世今生|焦点分析「Global 50」:寻找下一个微软和苹果 |新年特别发布科技赋能、创新赋能、圈层赋能,搭建全球科技创新·创业·创投服务生态圈 | 硅谷高创会2022年度总结被玩坏的“译制腔”,曾是上译厂为我们创造的世界鱼油软胶囊 辅助降三高绛血脂 调节旰功能视力改善 大脑活力满满 三高人群老年人常备 蓝帽认证200粒/瓶比惨么?索尼称PS没了COD干不过Xbox,微软:独占游戏不如索尼駕長車縱橫五萬邁,巡看美國好河山(完)爱芯元智ISP负责人张兴:AI-ISP在人工智能视觉成像领域的应用和发展 | 直播预告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。