Redian新闻
>
Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半

Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半

公众号新闻

作者 | 李冬梅、核子可乐

近日,Meta 在 GitHub 上开源了一款全新的 AI 语言模型—— Massively Multilingual Speech ( MMS,大规模多语种语音) ,它与 ChatGPT 有着很大的不同,这款新的语言模型可以识别 4000 多种口语并生成 1100 多种语音(文本到语音)。发布短短几天,该项目已经在 GitHub 库收获了 25.4k Star,Fork 数量高达 5.7k。

论文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

博客地址:https://ai.facebook.com/blog/multilingual-model-speech-recognition/

代码 / 模型:https://github.com/facebookresearch/fairseq/tree/main/examples/mms

1 Meta 开源能识别 4000 多种语言的语音大模型

与大多数已公开发布的 AI 项目一样,Meta 这次也毫无意外地将 MMS 项目开源出来,希望保护语言多样性并鼓励研究人员在此基础之上构建其他成果。Meta 公司写道,“我们公开分享这套模型和相关代码,以便研究领域的其他参与者能在我们的工作基础上进行构建。通过这项工作,我们希望为保护令人惊叹全球语言多样性做出一点贡献。”

语音识别和文本转语音模型往往需要使用数千小时的音频素材进行训练,同时附带转录标签。(标签对机器学习至关重要,使得算法能够正确分类并“理解”数据。)但对于那些在工业化国家并未广泛使用的语言——其中许多语言在未来几十年内甚至有消失的风险——Meta 提醒称“根本就不存在这样的数据”。

Meta AI 团队称,MMS 项目 最大的一个难点在于很多语言数据是缺失的。Meta AI 团队通过结合 wav2vec 2.0(该公司的“自监督语音表示学习”模型)和一个新数据集来克服其中一些挑战。其中一些语言,例如 Tatuyo 语言,只有几百人使用,而且对于其中的大多数语言,之前不存在语音技术。

Meta 表示:“收集数千种语言的音频数据是我们的第一个挑战,因为现有最大的语音数据集最多涵盖 100 种语言。为了克服它,我们求助于圣经等宗教文本,这些文本已被翻译成多种不同的语言,并且其翻译已被广泛研究用于基于文本的语言翻译研究。这些翻译有公开的录音,记录了人们用不同语言阅读这些文本的情况。作为该项目的一部分,我们创建了 1100 多种语言的新约读物数据集,每种语言平均提供 32 小时的数据”。

潜在的性别偏见分析。在 FLEURS 基准测试中,基于大规模多语言语音数据训练的自动语音识别模型对于男性和女性说话者具有相似的错误率。

乍看之下这种方法大有问题,因为此类训练思路似乎严重偏向宗教的世界观。但 Meta 表示情况并非如此,“虽然录音内容涉及宗教,但我们的分析表明,产出的模型并不会生成更多宗教语言。猜测这是因为我们使用了连接主义时间分类(CTC)方法,与语音识别类 大语言模型(LLM)或序列到序列模型相比,前者受到的限制要大得多。”此外,尽管大多数宗教录音都是由男性朗读,但也不会引入男性偏见——模型在女性和男性单色中同样表现出色。

2 相比同类模型,MMS 单词错误率更低

在训练出能够使用这些 数据 的对齐模型之后,Meta 又引入 wav2vec 2.0,可通过未标注的数据进行训练。非常规数据源和自监督语音模型相结合,最终带来了令人印象深刻 的结果。“我们的结果表明,与现有模型相比,大规模多语言语音模型表现良好,覆盖的语言数量是现有模型的 10 倍。”具体来看,Meta 将 MMS 与 OpenAI 的 Whisper 进行比较,实际结果超出预期。“我们发现在 MMS 数据上训练的模型将单词错误降低了一半,而 MMS 涵盖的语种数量则增长至 11 倍。”

Meta 公司警告称,这套新模型并不完美。“例如,语音转文本模型在特定的单词或短语上可能存在一定的错误转录风险。根据输出结果,这可能会导致攻击性和 / 或不准确的表述。我们仍然相信,整个 AI 社区的协作对于负责任开发 AI 技术至关重要。”

考虑到 Meta 已经发布了这套开源研究的 MMS 模型,希望它能扭转因科技巨头的支持习惯而逐渐将全球使用语言缩减至 100 种以下的趋势。以此为契机,辅助技术、文本转语音(TTS)甚至 VR/AR 技术,也许将给每个人都塑造出能用母语表达和学习的世界。Meta 表示,“我们设想一个依靠技术带来相反效果的世界,鼓励人们保持自己母语的活力,通过自己最熟悉的语言获取信息、使用技术。”

Meta 的结果表明,大规模多语言语音模型优于现有模型,覆盖的语言数量是现有模型的 10 倍。Meta 通常专注于多语言:对于文本,NLLB 项目将多语言翻译扩展到 200 种语言,而 Massively Multilingual Speech 项目将语音技术扩展到更多语言。

Meta 表示该款大模型相比于 OpenAI 的同类产品单词错误率少了一半。

在与 OpenAI 的 Whisper 的同类比较中,我们发现在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率,但 Massively Multilingual Speech 涵盖的语言是其 11 倍。这表明与当前最好的语音模型相比,我们的模型可以表现得非常好。
3 Meta AI 在大语言模型路上越走越远

在硅谷这场愈演愈烈的 AI 大战中,一直 All in 元宇宙的 Meta 正在加速追赶 OpenAI、谷歌、微软等大模型先行者们。

今年 2 月 24 日,在火遍全球的 ChatGPT 发布 3 个月后,Meta 在官网公布了一款新的人工智能 大型语言模型 LLaMA,从参数规模来看,Meta 提供有 70 亿、130 亿、330 亿和 650 亿四种参数规模的 LLaMA 模型,并用 20 种语言进行训练。

Meta 首席执行官马克·扎克伯格表示,LLaMA 模型旨在帮助研究人员推进工作,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面有很大的前景。

Meta 首席 AI 科学家杨立昆(Yann LeCun)表示,在一些基准测试中,LLaMA 130 亿参数规模的模型性能优于 OpenAI 推出的 GPT3,且能跑在单个 GPU 上;650 亿参数的 LLaMA 模型能够和 DeepMind 700 亿参数的 Chinchilla 模型、谷歌 5400 亿参数的 PaLM 模型竞争。

4 月 19 日,Meta 宣布开源 DINOv2 视觉大模型。据悉,DINOv2 是一最先进的计算机视觉自监督模型,可以在深度估计、语义分割和图像相似性比较等任务中实现 SOTA 级别的性能。该模型可以借助卫星图像生成不同大洲的森林高度,在医学成像和作物产量估算等领域具有潜在应用。

5 月 10 日,Meta 宣布开源可跨越六种感官的大模型 ImageBind,新的 ImageBind 模型结合了文本、音频、视觉、运动、热和深度数据。该模型目前只是一个研究项目,展示了未来的人工智能模型如何能够生成多感官内容。通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集,相反利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。

Meta 力求通过这样密集的发布向外界证明自己还一直跑在 AI 赛道中。

然而,在烧光了几十亿美元义无反顾押注 元宇宙 后,Meta 在 AI 方面的能力还是受到了外界的质疑。

在 Meta 公司今年 4 月的季度财报电话会议上,公司 CEO 扎克伯格明显相当被动。砸下数十亿美元、被寄予延续帝国辉煌厚望的元宇宙愿景还没来得及初试啼声,就被围绕人工智能(AI)掀起的汹涌狂潮抢了风头,刹那沦为明日黄花。

批评者们注意到就连 Meta 自己的底气也有所减弱,扎克伯格去年 11 月和今年 3 月两份声明间的口吻大为改变。之前扎克伯格强调这个项目属于“高优先级的增长领域”,而今年 3 月则转而表示“推进 AI”才是公司的“最大单一投资方向”。

但扎克伯格本人还是做出了澄清,表示“有人认为我们正以某种方式放弃对元宇宙愿景的关注,我想提前强调,这样的判断并不准确。”

“多年以来,我们一直专注于 AI 和元宇宙技术,未来也将继续双管齐下……构建元宇宙是个长期项目,但我们的基本思路将保持不变、努力方向也不会动摇。”

参考链接

https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html

https://ai.facebook.com/blog/multilingual-model-speech-recognition/

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

《2023 大语言模型综合能力测评报告》出炉:以文心一言为代表的国内产品即将冲出重围

免费版“Github Copilot”,编程能力还翻倍?!谷歌硬刚微软,推出全新Colab编程平台

百度回应 Bing 成中国桌面搜索第一;阿里回应大裁员传闻;文心一言市场负责人怒怼科大讯飞|Q资讯

中国的“贝尔实验室”:我们的数据库从内核的第一行代码写起

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
渡十娘|有表情,会多种语言的Amecas会不会是“兰姆达魔咒”?!中科院计算所推出多语言大模型「百聆」,我们已经上手聊起来了(10个邀请码)腾讯定性此前微信QQ故障为一级事故,商汤推出语言大模型,周杰伦诉网易不正当竞争,京东规定第三方发货时限,这就是今天的其他大新闻!开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星Agustín Hernández:中美洲建筑背景下的未来主义巨构大语言模型的多语言机器翻译能力分析小扎亲自官宣Meta视觉大模型!自监督学习无需微调,多任务效果超OpenCLIP丨开源全美最宠学生的大学:综排40开外,录取率仅为1%,校内还建游乐场….秋天的故事碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半给语言大模型加上综合视听能力,达摩院开源Video-LLaMAMeta 股票今天大跌,花街也看不过天天裁员的公司老板了微软赢麻了!联合Meta 重磅发布开源、可直接商用大模型Llama 2,网友:OpenAI 感觉如何?编程能力超强、还支持 100 多种语言,谷歌将在开发者大会上发布“巨型巴德”PaLM 2GPT-4「变笨」被斯坦福实锤:短短仨月数学问题错误率暴涨40倍!OpenAI也急了:已开始调查7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型好有钱!这家公司实习生,周薪5000刀,录取率仅为 0.5%!加州仇恨犯罪激增 反仇恨匿名热线开通 支持200多种语言只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型看急诊经历及收费Meta 突然宣布,明天要再次裁员4000人!在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……Google/Meta/Amazon狗脸麻LAYOFF后大面积招人ICCV 2023 | MRN:一种多路复用路由网络的增量多语言文本识别方法Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术AI版Office定价昂贵,微软“劈腿”Meta推大模型,免费且开源!面向现实世界场景,多语言大数据集PRESTO来了“AI孙燕姿”爆火后,Meta发布通用语音生成AI:可合成6种语言,支持多种语音功能Meta开源大模型:支持4000+语言识别,1100+种语音文本转换叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能人怎样提高自己的灵魂等级?Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下OpenAI被曝将发布全新开源大模型,网友:GPT平替?Meta staff engineer 被layoff 了,要卖房了改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻Hooray , 长了10磅《满城烟花》&《沏春》让大学生跑语言大模型,这场世界超算竞赛刚结束,北大首次夺冠Meta开源多感官AI模型;“ChatGPT之父”推出世界币App;传出门问问赴港IPO丨AIGC大事日报Meta VS Apple: Meta产品做的差 Apple产品做的好 和员工福利待遇的关系
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。