Redian新闻
>
Meta开源大模型:支持4000+语言识别,1100+种语音文本转换

Meta开源大模型:支持4000+语言识别,1100+种语音文本转换

公众号新闻
出品 | OSC开源社区(ID:oschina2013)
Meta AI 团队宣布开源了一个名为 Massively Multilingual Speech (MMS) 的 AI 模型,声称可以识别 4000 多种语言,比目前已知技术要多 40 倍。以及扩展了文本转语音和语音转文本技术的涵盖范围,从大约 100 种语言到 1100 多种。
根据介绍,现有的最大的语音数据集最多只涵盖 100 种语言;因此为了收集数千种语言的音频数据,Meta 使用了一种非常规的方法 —— 宗教文本录音。“我们转向宗教文本(例如《圣经》),这些文本已被翻译成许多不同的语言,并且其翻译已被广泛研究用于基于文本的语言翻译研究。这些译本都有公开录音,记录了人们采用不同语言进行阅读的情景。”
作为 MMS 项目的一部分,Meta 公司的研究人员创建了一个超过 1100 种语言的 New Testament 阅读数据集,每种语言平均提供 32 小时的数据。结合其他各种基督教宗教读物的无标签录音,他们还将模型的可用语言增加到了 4000 多种。
但 Meta 方面声明,此举不会导致模型的偏向性。“虽然这些数据来自特定领域,并且通常由男性阅读;但我们的分析表明,我们的模型在男性和女性声音方面表现同样出色。虽然录音的内容是宗教的,但我们的分析表明,这并不会使模型偏向于产生更多的宗教语言。”
Meta 在 MMS 模型的训练中结合使用了该公司的 “自监督语音表示学习” 模型 wav2vec 2.0,使机器能够在不依赖标记训练数据的情况下进行学习;有了它,就可以在更少的数据上训练语音识别模型。
“我们使用 1B 参数的 wav2vec 2.0 模型对 1100 多种语言进行了多语言语音识别模型的训练。随着语言数量的增加,性能确实下降,但非常轻微:从 61 种语言到 1107 种语言,字符错误率只增加了约 0.4%,但语言覆盖率却增加了 17 倍以上。”
与 OpenAI 的 Whisper 语音识别模型相比,Meta 研究人员发现在 MMS 数据上训练的模型实现了大约一半的单词错误率,但 MMS 涵盖的语言数量是 Whisper 的 11 倍。“这表明,与目前最好的语音模型相比,我们的模型可以表现得非常好。”
不过 Meta 也警告 MMS 存在一些风险,譬如语音转文本模型可能会错误转录选定的单词或短语。"根据输出结果,这可能导致冒犯性和 / 或不准确的语言。我们仍然认为 AI 社区的合作对于 AI 技术负责任的发展至关重要。"
目前,Meta 已经开源了相关的模型和代码,以便研究社区中的其他人可以在此工作基础上进行构建。放眼未来,该公司希望扩大 MMS 的覆盖范围以支持更多语言,并改进其对方言的处理。
更多详情可查看官方博客:https://ai.facebook.com/blog/multilingual-model-speech-recognition/


往期推荐



GAN“泰裤辣”,DragGAN点点鼠标就能让狮子开口,未开源已破8k star
国产中文大语言模型 “天河天元” 发布,涉及各种小说、古文、百科、新闻、中医、法律等!
Build 2023亮点汇总:Windows原生支持rar格式、发布Windows Copilot...



🌟 活动推荐

2023 年 5 月 27-28 日,GOTC 2023 全球开源技术峰会将在上海张江科学会堂隆重举行。
为期 2 天的开源行业盛会,将以行业展览、主题发言、特别论坛、分论坛、快闪演讲的形式来诠释此次大会主题 ——“Open Source, Into the Future”。与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及 OSPO、汽车软件、AIGC、开源教育培训、云原生等热门话题,探讨开源未来,助力开源发展。
长按识别下方二维码立即查看 GOTC 2023 详情/报名。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中日花名脱钩:木兰VS.木蓮Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下编程能力超强、还支持 100 多种语言,谷歌将在开发者大会上发布“巨型巴德”PaLM 2如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍Stable Diffusion背后公司开源大语言模型,很火,但很烂“AI孙燕姿”爆火后,Meta发布通用语音生成AI:可合成6种语言,支持多种语音功能语音合成模型NaturalSpeech 2:只需几秒提示语音即可定制语音和歌声全球最大ChatGPT开源平替来了!支持35种语言,写代码、讲笑话全拿捏Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半Stable Diffusion公司重磅开源大语言模型StableLM,又爆火了!击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜每一个人的大模型:开源BELLE项目集训练、数据、模型、评估、APP一体CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法回国感觉(鱼和熊掌不可兼得)开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿tokenPrompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型微软 Office copilot 定价每月 30 美元;腾讯否认推公务员版微信;Meta 发布新一代开源大模型 | 极客早知道ChatGPT官方APP上线:速度极快且免费、增加语音识别,网友:真香波士顿马拉松有新的冠名赞助商今天的午餐2023读书笔记(二)Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳Meta生成式AI竞赛下一站:让开发者靠开源大模型挣钱!百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE开源大模型到底开源什么?碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张Stability AI宣布推出新的开源大型语言模型开源AltDiffusion-m18 ,18种语言文图生成all in one
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。