Redian新闻
>
首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据

首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】语音翻译无需级联子系统,一个架构支持100种语言!


基于文本的翻译系统已经取得了非常大的进步,从最早的查词匹配、语法规则,再到神经翻译系统、Transformer预训练等,翻译结果越来越精准,支持的互译语言数量也超过了200种。


但与之相对的「语音到语音翻译」模型仍然进展缓慢,目前主要依赖多个子系统级联,先对输入音频转换到文本,再逐步得到翻译结果。


最近,Meta AI和加州大学伯克利联合发布了一个大规模的多语言、多模态机器翻译系统SeamlessM4T,只用一个模型实现支持100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译和自动语音识别。


Blog post: https://bit.ly/45z0e6s

Demo链接: https://seamless.metademolab.com

论文链接: https://ai.meta.com/research/publications/seamless-m4t/

开源链接: https://github.com/facebookresearch/seamless_communication


为了训练模型的多项能力,研究人员先使用了100万小时的开放语音音频数据来学习w2v-BERT 2.0的自监督语音表征。


然后过滤并结合人工标注和伪标注数据,得到了一个自动对齐的语音翻译多模态语料库SeamlessAlign,总计40.6万小时,也是第一个能同时将语音和文本翻译成英语的多语言系统。


在Fleurs上,SeamlessM4T为多种目标语言的翻译设定了新的标准,在直接语音到文本的翻译方面,BLEU比以前的最高性能模型提高了20%;


与强级联模型相比,SeamlessM4T在语音到文本方面将英译质量提高了1.3 BLEU评分,在语音到语音方面提高了2.6 ASR-BLEU评分。


在CVSS上,与用于语音到语音翻译的2阶段级联模型相比,SeamlessM4T-Large的性能强了58%


数据准备



语言识别(LID)


将原始的音频数据按照语言进行分类后,可以提高音频片段的对齐质量,提高下游翻译系统的性能。


研究人员选择ECAPA-TDNN开源架构作为基线模型,在VoxLingua107数据集上重新训练30个epoch后,分类错误率为5.25%;相比之下,开源版模型VL107 HF的错误率为7%


在模型复现验证完毕后,研究人员最终在8个GPU上训练了40个epoch,总耗时172小时,累计使用1.7万小时的语音数据,平均每种语言171小时,具体为1到600小时不等。



在100种SeamlessM4T语言以及79种VoxLingua107语言的实验中,可以看到,对额外语言的训练会略微降低通用语言集的整体性能,可以是因为引入了更多相似语言,比如祖鲁语(zul)经常与尼亚雅语(nya)混淆,现代标准阿拉伯语(arb)与摩洛哥阿拉伯语(arry)和埃及阿拉伯语(arz)混淆等。


总体来说,新模型在17种语言的分类能力上平均性能提升14.6%,但有12种语言的分类能力下降(平均9.8%)。


除此之外,为了提高LID标签的质量,研究人员还根据特定语言的可用数据量,估算了开发语料库中每种语言正确和错误分类的LID分数高斯分布,设定过滤阈值,使得 p(correct|score) > p(incorrect|score)


在过滤掉8%的数据后,模型的F1指标又进一步提高了近3%


大规模收集原始音频和文本


在文本预处理时,研究人员遵循NLLB团队的策略,使用相同的数据源、清洗策略、过滤步骤等。


论文链接:https://arxiv.org/abs/2207.04672


在音频预处理上,研究人员首先从公开的网络数据抓取库中获取了400万小时的原始音频(其中约100万小时为英语),然后以16KHz频率进行重采样,再使用定制的音频事件检测(AED)模型过滤掉非语音数据。


在音频分割部分, 为了实现S2TT或S2ST挖掘,研究人员将音频文件尽可能分割成小块,使得每个块内只包含一个独立的句子。


但语音中的语义分割仍然是一个开放性问题,不同语言中的停顿都可能代表不同的含义,所以研究人员先采用语音活动检测(VAD)模型将音频文件分割成较短的片段,再在每个文件上使用语音LID模型,最后为每个片段创建了多个可能的重叠片段,并使用挖掘算法选择最佳片段,过度分割的策略使得潜在分段数量增加了八倍。


语音挖掘



在挖掘过程中,研究人员先训练了一个文本编码器和语音编码器,然后利用两个编码器将文本和语音模态的数据投影到联合嵌入空间SONAR(Sentence-level multimOdal and laNguage-Agnostic Representations)中。


文本编码器的训练方法为,首先训练文本嵌入空间,再利用师生训练策略将其扩展到语音模态,初始文本SONAR空间采用了编码器-解码器架构,基于NLLB-1.3B模型,能够翻译200种语言。



研究人员使用平均池化(mean-pooling)将中间表示转换为固定大小的向量,即解码器只需关注一个向量,然后利用NLLB的所有 T2TT训练数据对这一架构进行了微调。


在语音编码器的训练中,先通过预训练 XLS-R 模型的 BOS 输出,获得了固定大小的语音表征,然后对该模型进行微调,以最大化该集合语音表征与相同语言(ASR 转录)或英语(语音翻译)句子嵌入之间的余弦损失。


最后根据文本句子或其他语言的语音片段挖掘语音片段来生成S2TT和S2ST数据对以训练SeamlessM4T模型。


研究人员进行了全局挖掘(global mining),即将一种语言的所有语音片段与另一种语言的所有语音片段进行比较,利用faiss库对所有嵌入进行索引可以实现在GPU上高效的大规模相似度搜索。



SeamlessM4T模型架构


研究人员设计SeamlessM4T的目标之一是,通过构建一个更强大的直接X2T模型(用于将文本和语音翻译成文本)来弥合大型多语言和多模态设置中S2TT的直接和级联模型之间的差距,将强大的语音表示学习模型与大规模多语言T2TT模型相结合。


无监督语音预训练


语音识别和翻译任务的标注数据非常难获得,对于低资源语言来说更是如此,所以研究人员对语音翻译模型的训练思路是先采用自监督学习进行预训练后再用少量数据微调,可以在数据量不足的情况下提升模型的极限性能。


研究人员在Seamless M4T Large中采用w2v BERT 2.0预训练语音编码器的w2v BERT XL架构,具有24个Conformer层和大约600M的模型参数。


w2v BERT 2.0模型基于100万小时的开放语音音频数据进行训练,覆盖了超过143种语言。


w2v-BERT 2.0遵循w2v-BERT的设计思路,将对比学习和遮罩预测学习相结合,不过调整了其中两个学习目标。



对比学习模块用于学习Gumbel矢量量化(GVQ)词表(codebook)和上下文表征,之后用遮罩预测学习在不同任务中细化上下文表征,而不是在遮罩位置对预测概率进行极化。


w2v-BERT 2.0没有使用单一的GVQ词表,而是用两个GVQ码本的乘积量化。


X2T:文本翻译与转录


多任务UnitY框架的核心部分X2T是一个多编码器序列模型,语音输入用的是基于Conformer的编码器,文本使用基于Transformer的编码器。



X2T模型的训练数据为S2TT,即包含一段源语言的音频和目标语言的文本。



研究人员分两个阶段训练X2T模型:


第一阶段在标注英语ASR和英语S2TT数据进行有监督训练,这一过程可以同时提升X-eng(某个语言到英语)及eng-X的翻译性能。


在这一过程中,研究人员猜想,模型只关注一种目标语言,同时用多语言语音表征进行微调的话,可以避免从目标语言反向传播回来的干扰信号。


在第二阶段,将标注eng-X S2TT和非英语ASR数据添加到混合数据集中


语音到语音翻译(S2ST, Speech-to-Speech Translation)


S2ST问题的关键是使用自监督离散声学单元来表示目标语音,从而将S2ST问题分解为语音到单元翻译(S2UT)和单元到语音(U2S)转换。


对于S2UT问题,使用UnitY作为two-pass解码框架,首先生成文本,然后预测离散的声学单元。


与基本UnitY模型相比,SemalessM4T中的UnitY对初始化的S2TT模型进行预训练来联合优化T2TT、S2TT和ASR的X2T模型;T2U模型更深,包含6个Transformer层;使用预训练T2U模型而非从头初始化。



预训练X2T具有更强的语音编码器和更高质量的first-pass文本解码器,并且更大规模的预训练T2U模型可以在不受干扰的情况下,更好地处理多语言单元生成。



在微调的最后阶段,用预训练X2T模型和预训练T2U模型对多任务UnitY模型初始化后,使用总计12.1万小时的X-ENG和ENG-X S2ST翻译数据对T2U组件进行微调,确保模型对先前微调阶段任务的性能保持不变。


SeamlessM4T模型


经过前面三个阶段的训练后,最终得到的SeamlessM4T-Large模型具有2.3B参数,在T2TT任务上针对95种与英语配对的语言进行了微调,在ASR任务上针对96种语言进行了微调,在S2TT任务上针对89种与英语配对的语言进行了微调。



为了提供不同尺寸的模型,研究人员遵循相同的步骤来训练得到SeamlessM4T-Medium,参数量比SeamlessM4T-Large少57%,可以更方便地测试和微调以进行实验分析和改进。


实验评估


研究人员在四个有监督任务(T2TT、ASR、S2TT和S2ST)以及文本到语音翻译的零样本任务(T2ST,跨语言文本到语音合成)上评估了SeamlessM4T模型。


在S2ST和T2ST推理过程中,模型进行two-pass beam search解码,宽度为5,先用文本解码器找到最佳假设(best hypothesis),然后输入到T2U中搜索最佳单位序列假设。


级联方法对比


在SeamlessM4T和Whisper支持的语言集上,研究人员对比了Whisper ASR模型和NLLB T2TT模型的组合。



可以看到,SeamlessM4T-Large在x-eng方向上比参数小于3B的级联模型高出2个BLEU评分,在eng-x方向上比参数小于3B的级联模型高出0.5个BLEU评分。


当使用大型NLLB-3.3B T2TT模型(超40亿参数量)的级联模型时,也只在eng-X方向上优于SeamlessM4T-Large



在S2ST任务的对比中,SeamlessM4T-Large在Fleurs X-Eng方向上比2级级联模型高出9个ASR-BLEU点,比3级级联模型高出2.6个ASR BLEU评分。


在CVSS上,SeamlessM4T-Large比2级级联模型高出14个ASR-BLEU评分;在Fleurs Eng-X方向上,SeamlessM4T-Large在32个X-Eng方向上的平均ASR-BLEU为21.5,比Whisper-Large-v2(用于ASR-BLEU的ASR模型)的WER高于100。


参考资料:
https://x.com/metaai/status/1694020437532151820?s=46&t=iBppoR0Tk6jtBDcof0HHgg




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型大语言模型(LLM)预训练数据集调研分析NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型小米14 Pro入网:支持120W快充,或11月初发布我挺佩服这种店名谐音翻译,暗暗称赞!国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用传OpenAI秘密训练GPT-5;腾讯混元大模型或本周亮相;首个中英语音多模态LLM开源DreamLLM:多功能多模态大型语言模型,你的DreamLLM~微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」OpenAI等推出AI语音翻译;百度发布首个量子领域大模型;微软或将用核电供能AI数据中心丨AIGC大事日报刷新多个SOTA!Meta重磅新作AnyMAL:多模态版Llama2来了!给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手最高法院的给了平权行动猛烈一击有用吗?Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源多模态大语言模型综述来啦!一文带你理清多模态关键技术用语言建模世界:UC伯克利多模态世界模型利用语言预测未来持续数据开源,智源发布超3亿对面向中英文语义向量模型训练数据集《雨巷佳人》&《我记得你眼里的依恋》字节 | 大模型BuboGPT:引入视觉定位,实现细粒度多模态,已开源老海归金蝉脱壳清华系「自然语言编程神器」上新!支持100+种编程语言,效率upup阿里云开源通义千问多模态视觉模型,号称“远超同等规模通用模型表现”PS VR2获日本市场2023H1销冠;Meta推出新AI模型,可翻译近百种语言《老和尚的身教》阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳Meta开源像语言识别系统,模型识别唇语翻译6种语言,本地部署人人可用上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态5104 血壮山河之武汉会战 浴血田家镇 12从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。