ACL 2024 | 28倍离线解码加速!用非自回归架构实现高质量同声传译
同声传译员在联合国大会、新闻发布会等国际交流场景中扮演着不可或缺的角色。如何使用人工智能模型自动、高质量地完成同声传译任务,当前已成为众多科研机构关注的热点。
论文链接:
项目链接:
▲ 左声道输入语音;右声道为同传系统的实时输出语音;更多样例请在 https://github.com/ictnlp/NAST-S2x 查看
背景
相较于离线语音到语音翻译,同声传译系统不仅需要实现高质量的翻译,还必须尽量减少翻译的“延迟”,以使生成的语音与输入语音尽量“保持同步”。这种需求使得当前主流的基于 Seq2Seq 或 LLM 的翻译系统都无法满足要求,因为它们都需要源端的输入是完整的。
同声传译模型的延迟由两个部分组成:一是“算法延迟”,二是“计算延迟”。“算法延迟”指的是模型决定等待更多的输入再开始输出翻译所产生的延迟;而“计算延迟”则是模型在决定开始输出后,生成翻译所需时间所导致的延迟。近年来,一些研究指出“计算延迟”与“算法延迟”同等重要 [1]。由于需要生成的语音单元序列通常非常冗长 [2],通过自回归模型生成这些序列所带来的“计算延迟”可能与“算法延迟”相当。
另一方面,早期的同声传译模型主要是级联模型 [3],由一个流式语音到文本翻译模型和一个语音合成模型组成。然而,级联模型通常会面临错误传播和延迟积累的问题。中间文本作为信息瓶颈,限制了后续级联组件对源端信息的访问和错误的纠正。此外,每个组件都采用独立的流式策略,导致延迟积累,从而削弱了演讲者和听众之间的同步性。鉴于这些挑战,端到端的同声传译模型开始受到研究者的关注。
模型总览
模型架构
由于 NAST-S2X 整体在块级别操作,一种控制同声传译系统延迟的直接方法是调整块的大小。而当所设定的块大小超出了源端语音长度时,我们的模型将自动转换为离线模型,进行双向编码和双向非自回归解码。
尽管 NAST-S2X 受益于非自回归生成的优势,但训练它非常具有挑战性。已有的研究表明 [7],非自回归模型不具备拟合多峰分布的能力。而在语音到语音翻译上,这一问题尤其严重:
首先,语音输入到文本翻译的映射可能是一对多的,因为不同的词汇选择和语法结构可以表达相同的语义。
其次,在给定文本的情况下,语音的分布可能是多峰的,表现为音高、节奏和能量的变化。为了应对这些挑战,我们提出了以下策略来训练 NAST-S2X。
我们使用了基于 CTC 的非单调潜在对齐损失 [8] 来训练 NAST-S2X。这一损失函数旨在最大化目标和输出之间的期望 2-gram 匹配的 F1 分数,用于引导模型收敛于一个熵值较低的分布上,从而缓解语音到语音翻译中的多峰分布问题。 为了进一步简化分布拟合的复杂度,我们在训练中引入了 Glancing 策略 [9],在当前模型的输出分布中找到最可能的目标路径给予模型提示。
在离线情况下,有如下结论:
NAST-S2X 的翻译质量已经超越了基线自回归模型 S2UT,可以媲美两阶段自回归模型 UnitY。 相较于 S2UT 和 UnitY,NAST-S2X 能够实现高达 28.3 倍与 17.7 倍的解码加速。
在同声传译场景下,有如下结论:
NAST-S2X 的同传生成质量大幅超越了之前的级联模型。 在保留静默的情况下,NAST-S2X 的生成质量会明显随着延迟的降低而衰减(如图中红色“★”折线所示)。然而,若在不保留静默的情况下评估生成质量(如图中红色“×”折线),模型在极低延迟(AL < 1s)时的生成质量仍然与离线情况相媲美。
举例来说,考虑目标单词 “Richardson”,它包含多个音节。如果 “Richard” 的波形部分在一个块中生成并立即播放,而 “son” 音节则在后续块中生成,潜在的静默期(静默期长度等于块大小减去前一个块中生成波形的长度)可能导致听者感知到口吃效应,进而影响 ASR-BLEU 分数。关于这一现象的详细分析,我们在论文的 4.2.3 节提供了更加完整和全面的版本,敬请参阅。
参考文献
[1] Ma et al. SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation
[2] Seamless Communication et al. Seamless: Multilingual Expressive and Streaming Speech Translation
[3] Sudoh et al. Simultaneous Speech-To-Speech Translation System with Neural Incremental ASR, MT, and TTS
[4] Inaguma et al. UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
[5] Fang et al. DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
[6] Graves et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks
[7] Huang et al. On the Learning of Non-Autoregressive Transformers
[8] Shao et al. Non-Monotonic Latent Alignments for CTC-Based Non-Autoregressive Machine Translation
[9] Qian et al. Glancing Transformer for Non-Autoregressive Neural Machine Translation
[10] Ma et al. Direct Simultaneous Speech-to-Speech Translation with Variational Monotonic Multihead Attention
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
微信扫码关注该文公众号作者