Redian新闻
>
Meta开源像语言识别系统,模型识别唇语翻译6种语言,本地部署人人可用

Meta开源像语言识别系统,模型识别唇语翻译6种语言,本地部署人人可用

公众号新闻



  新智元报道  

编辑:润
【新智元导读】Meta开源视听语音识别系统MuAViC,大幅刷新SOTA,直接下载本地可用!

不知道大家是否还记得年初火爆全网的反黑大剧《狂飙》中,最后几集因为导演删改剧情,演员嘴型和台词完全对不上的事吗?

后边有懂唇语的硬核剧迷,为了看到原版剧情,直接开始翻译。

来源:娱乐寡姐

Meta为了弄清楚孟德海到底黑化了没最近开源了一个AI语音-视频识别系统:MuAViC,让大家动一动手指头,就能看懂没有声音的人物讲了啥,还能精确识别嘈杂背景当中特定人物的语音。

Meta利用TED/TEDx的视频语音素材,制作了MuAViC中的数据集。其中包含了1200小时,9种语言的文本语音视频素材,还有英语与6种语言之间的双向翻译。

语音识别数据的详细内容:

英语到6种语言翻译的素材具体包括:

6种语言到英语的翻译素材具体包括:

论文

针对这个系统,Mate的研究人员也发布了论文介绍它与现有SOTA的对比。

https://arxiv.org/pdf/2303.00628.pdf

视听语料库的收集

英语语料收集

对于英语语料,研究人员重新使用了LRS3-TED中的视听数据,并按照原始数据进行了拆分。

通过匹配LRS3-TED中的转录和TED2020中的源句,研究人员从机器翻译语料库TED2020中找到了这些会谈的人工翻译。

然后将匹配的LRS3-TED示例与TED2020中相应的目标句子配对,以获得翻译标签。

研究人员对开发集和测试集示例采用精确文本匹配,以确保最佳准确性。

为了提高训练集的匹配召回率,研究人员开发了一种模糊文本匹配策略:如果句对双方包含相同数量的句段,他们首先用标点符号分割TED2020源句和目标句。

然后,通过去除标点符号和小写来规范TED2020和LRS3-TED文本。

最后,在两个语料库之间进行精确文本匹配。

对于TED2020中没有匹配的LRS3-TED训练集示例,研究人员从机器翻译模型M2M-100 418M中获取伪翻译标签,该模型采用默认的解码超参数法。

非英语语料的收集

对于非英语语料,研究人员重新使用了之前研究中的mTEDx收集的纯音频数据、转录和文本翻译。他们也按照mTEDx来进行数据拆分。

他们获取原始录音的视频轨迹,并将处理过的视频数据与音频数据对齐,形成视听数据,与LRS3-TED类似。

虽然mTEDx中的所有音频数据都已转录,但其中只有一个子集进行了翻译。

研究人员从M2M-100 418M中获取伪翻译标签,用于使用默认解码超参数的未翻译训练集示例。

实验

实验设置

对于视听语音识别(AVSR)和视听语音翻译(AVST),研究人员使用英语AV-HuBERT大型预训练模型,该模型结合LRS3-TED和 VoxCeleb2的英语部分进行训练。

研究人员按照AV-HuBERT论文中的方式来微调超参数,不同之处在于他们将双语模型微调为30K更新,将多语言 AVSR 模型微调为90K更新。研究人员分别冻结X-En AVST和En-X AVST模型的第一个4K和24K更新的预训练编码器。

AVSR测试

安静环境中

研究人员在纯音频("A")和视听("AV")模式下对 AVSR 模型进行了评估,前者在微调和推理中仅利用音频模式,而后者则同时利用音频和视觉模式。

如下表1所示,英语 AVSR 模型的测试误码率分别为 2.5 和 2.3。

对于非英语 AVSR,研究人员对预先训练好的英语AVHuBERT模型进行了微调,微调方式可以是对每种语言分别进行微调(8 种单语模型),也可以是对所有8种非英语语言联合进行微调(多语模型)。

其测试误码率见下表2。

研究人员发现,在视听模式下,研究人员的单语AVSR模型的WER平均降低了52%,优于同类ASR基线(Transformer,单语)。

表1

表2

表3

噪音环境中

表3的第一部分显示了研究人员的 AVSR 模型在高噪音环境下的测试误码率。

研究人员注意到,SOTA多语种ASR模型Whisper在这一具有挑战性的设置中表现糟糕,种语言的平均误码率为174.3。

相比之下,研究人员的单语言AVSR模型在纯音频模式下的平均误码率分别为70.2和66.7。

在视听模式下,研究人员模型的平均误码率大幅下降了32%,这表明它们有效地利用了视觉信息来减轻嘈杂环境的干扰。

在纯音频和视听模式下,研究人员的多语言AVSR模型在每种非英语语言(除El语外)上的表现都优于单语言模型。

参考资料:
https://github.com/facebookresearch/muavic/tree/main/demo



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《永远的阿诗玛》&《心有独钟》开源本地化部署的「妙鸭相机」,真的要革了「海马体」们的命了?|手把手教你搭建「妙鸭相机」35种语言版本,更多加州人可居家考驾照UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源ReCon框架帮助AI大模型识破谎言,来看智能体如何在阿瓦隆游戏中应对欺骗小米雷军:小米大模型技术主力突破方向是轻量化本地部署美东之行—普林斯顿的雷阵雨改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttentionGitHub 1.1万星,模拟软件开发流程,开源框架MetaGPT爆火同声传译将被取代?Meta发布可数十种语言互译的AI模型端侧AI推理,高效部署PyTorch模型:官方新工具开源,Meta已经用上了6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务语言模型悄悄偷懒?新研究:​上下文太长,模型会略过中间不看开源论文神器DocsGPT登顶GitHub热榜!多类型文档查询,支持中文可本地部署 | 狂揽8000+星那是一条神奇的天路 冷明大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了人人人人模式下,想去一座小小的孤岛当个“小岛管理员”严抓逃票?纽约地铁悄悄升级设备,启用人脸识别系统!微软发布 Guidance 语言,用于控制大语言模型Meta发布大规模视觉模型评估基准FACET!开源视觉模型DINOv2允许商用并非Meta开发!名为MetaGPT的AI模型近日开源2023回国 在上海吃的最浪费的一顿酒席(多图)雷军:小米研发大模型的方向是轻量化和本地部署从人人可用到生态共荣,百度的大模型进阶思考PS VR2获日本市场2023H1销冠;Meta推出新AI模型,可翻译近百种语言后院日记(一)Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据人人人人人!日均出入境旅客将达158万人次!文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型大模型论文阅读神器来了!5秒翻译67页论文,直接截图提问,网页可试玩
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。