谷歌的野心:通用语音识别大模型已经支持100+语言
谷歌表示,推出通用语音模型(USM)是其未来支持 1000 种语言的关键一步。
USM 支 持的语言示例。
第一步先从对涵盖数百种语言的语音音频进行自监督学习开始。 第二步是可选步骤,谷歌通过使用文本数据进行额外的预训练来提高模型的质量和语言覆盖率。是否采用这个步骤取决文本数据是否可用。 训练 pipeline 的最后一步是使用少量有监督数据微调下游任务(例如,ASR 或自动语音翻译)。
USM 的整体训练流程。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章