Redian新闻
>
请查收使用OpenAI的Whisper进行语音识别的攻略

请查收使用OpenAI的Whisper进行语音识别的攻略

公众号新闻

Whisper是一种令人激动的新型语言模型,采用了全新的语音识别方法,即使是低质量的音频,Whisper也能产生高质量的结果,并且对各种声音和语言的适应性极强,无需进行微调。


Whisper是开源的,有一系列可用的模型尺寸,可以作为众多语音转文字应用的有效解决方案,包括翻译、智能个人助理、车辆语音控制系统、客户服务运营等等。


在这篇文章中,我们将探讨Whisper与其他语音识别模型的不同之处,并将展示如何使用在Graphcore(拟未) IPU上运行的预构建的Paperspace Gradient Notebook,来起用Whisper Tiny的Hugging Face实现。


链接:https://ipu.dev/rDk9lk






Whisper有什么聪明之处?


OpenAI的Whisper创始人们开始着手解决自动语音识别(ASR)迄今面临的几个基本挑战:


语音模型训练花费不低


许多ASR模型依赖于超高质量的标记音频/文本数据来进行监督学习。遗憾的是,这种符合“黄金标准”的训练数据是很缺乏的。以这种方式训练的模型能够在理想的条件下产生良好的语音识别结果。然而,由于它们对不同训练示例的接触有限,往往不能很好地进行概括,在处理低质量的真实世界音频时可能会遇到困难,并且通常需要额外的语音微调来为特定的用例做好准备。


显然,改进这类模型的方法是在更多的数据上训练它们,但高质量数据集的短缺导致人工智能从业者转向了反方向,开始使用大量未标记的音频来开发无监督学习的ASR模型。


以这种方式创建的模型能够实现非常高质量的语音表示,但需要随后进行微调,以便为特定的ASR任务做好准备。除了需要额外的工作,在语音识别中使用的微调过程已被证明会产生一些过度拟合的问题,从而限制模型的泛化性。


Whisper的创始人们将这个问题[1]描述为“一个限制其实用性和稳健性的关键弱点”,并着手设计一个“开箱即用”的ASR模型。


“弱”训练数据如何使我们变得更强


Whisper解决方案从相同的高质量标记音频数据集开始,并利用更大的“弱监督数据集”(如视频字幕)对其进行扩充。这种方法在一定程度上受到计算机视觉研究的影响,该研究表明更大的、弱监督的数据集实际上可以提高模型的稳健性和泛化性。


我们使用了一些技术来检测和删除质量最低的数据,例如由其他ASR技术生成的视频转录,因为其局限性有转移到Whisper中的风险。


最终,我们使用了680,000小时的标记音频数据来训练Whisper,远远超出以前的监督模型。其中几乎五分之一的训练数据是非英语的,涉及96种语言。该数据集还包括125,000小时的其他语言到英语的翻译。


多任务transformer


Whisper采用经典的编码器-解码器转换架构,并将其应用于成对的音频/文本,使用从音频中生成的编码来实现对文本组件的下一个标记预测。


有一点非常重要,Whisper在解码器中包括特殊的标记,指示它执行不同的语言任务,如[转录]或[翻译]。


这种方法与许多ASR模型不同,后者使用各种子系统来处理语音转文本过程的不同方面,如语音活动检测、识别不同的说话者和规范化文本格式。这种架构需要额外的资源来协调各子系统之间复杂的相互作用。







性能


ASR模型的性能通常用单词错误率(WER)来衡量。



在长篇转录方面,Whisper与最先进的商业、开源的ASR系统相比颇具竞争力。我们比较了六个ASR系统在七个长篇数据集上的单词错误率分布,其中输入长度从几分钟到几小时不等。方框显示了每个示例WER的四分位数,每个数据集的总WER在每个方框中都有注释。我们的模型在所有数据集上都优于最好的开源模型(NVIDIA STT),而且在大多数情况下,也优于商业ASR系统。

[图片和标题文字来自OpenAI Whisper论文[2]


如上图所示,Whisper用于长篇转写的WER可与基于符合“黄金标准”的数据集上训练的专有音频语音识别(ASR)系统相媲美。然而,由于其更大的训练数据语料库和使用“弱标记”的示例,在使用其他训练基准测试时,Whisper证明了更强的稳健性,而且无需进行微调。



值得注意的是,不同语种的单词错误率差异很大。下图显示了使用Feurs数据集的Whisper Large v2的性能差异。在这个例子中,西班牙语和意大利语的表现甚至好于英语,而津巴布韦的绍纳语和巴基斯坦的信德语表现最差,开箱即用。Whisper Tiny的表现可能会有所不同。







在Graphcore IPU上使用Whisper


开发人员可以通过Paperspace Gradiant Notebook在Graphcore IPU上使用预训练的Whisper Tiny(39m参数)进行推理。


链接:https://ipu.dev/0uiXjd


用户可以从六小时的免费试用开始,如果需要的话,也可以升级到付费版本。


欲了解更多,可使用IPU运行的其他版本的Whisper,请通过此表[3]与我们联系。


在IPU上的Paperspace Gradient Notebook中运行Whisper非常简单。


我们将使用Hugging Face的IPU优化的transformer库,optimum-graphcore。


您可能还需要一些其他的库来处理声音文件,对模型的输入进行标记并绘制结果。


按照本指南,您可以在很短的时间内转录音频内容。



接下来,让我们导入今天要使用的库的其中一部分。



我们现在可以选择要使用的模型及其配置。我们要选的是Whisper tiny.en,它可以实现最快的执行速度,同时确保很好的转录质量,因为它只专注于一种语言——英语。我们将使用两个IPU来运行这个模型,在第一个IPU上放置Transformer模型的编码器,在第二个IPU上放置解码器。通过在我们的模型上调用.half(),我们可以使用fp16的精度,从而使吞吐量接近fp32的两倍。



模型已经就绪,现在让我们获取一些音频数据来进行转录。我们使用的是众所周知的librispeech,它包含了成对的音频数据和相应的转录。如果您使用自己的音频,需要将其转换为Whisper可以识别的文件格式,我们建议使用在线工具,如Online Audio Convertor[4](在线音频转换器)。



然后,我们创建一个函数来调用我们的Whisper模型并调用音频数据。之后,我们将生成的转录数据打印到控制台,并观察它是否与我们从librispeech中得到的基本事实相匹配,并直接观察我们刚刚转录的音频。




希望您也认为,在Graphcore IPU上使用Whisper开始转录既快速又简单易行。


当然,Whisper还有很多才能,如翻译和多语言转录。如果您想在IPU上进一步使用Whisper,或探索该模型的更大版本,请随时与我们联系[5]



[1]https://cdn.openai.com/papers/whisper.pdf

[2]https://cdn.openai.com/papers/whisper.pdf

[3]https://www.graphcore.ai/speak-to-an-expert-whisper-ai

[4]https://online-audio-converter.com/

[5]https://www.graphcore.ai/speak-to-an-expert-whisper-ai






获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区


点击阅读原文,查看英文blog。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌的野心:通用语音识别大模型已经支持100+语言不痴呆,血管光滑柔软无斑块!该如何做?语音请查收!(有福利)倒计时5天!FBIF食品创新展 2023超全逛展攻略请查收!绝美挪威荷兰夏日之旅(十七)Akershus城堡-挪威皇宫911飞机上华裔空姐邓月薇,临终前20分钟留下一份录音,还原真相【健康】世界卫生日,这份春日居家打扫攻略请查收【见闻618】 会员低至29元! 大师课会员全面升级,福利攻略请查收Hélène Binet:光的哲学家语音合成模型NaturalSpeech 2:只需几秒提示语音即可定制语音和歌声沈阳老乡给我个红花君子兰大苗 我和我姐说了超长暑假来袭,这里有份不费爸妈的《暑期提升攻略》请查收!微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型美国现在的确请人难ChatGPT官方APP上线:速度极快且免费、增加语音识别,网友:真香正在申请H-1B签证?保姆级申请攻略请查收!这是纪录片么?这分明是我带娃吃遍全中国的攻略申请OPT最全的攻略,再不看就晚了!【记忆】五步带你玩转“跟着档案观上海”数字人文平台,攻略请查收!【倒计时最后1天!!】这份2023数智产业领袖峰会完整攻略请查收~错过等一年陆房战斗考略之六(转贴)倒计时5天!第五届中国(宁波)国际航运物流交易会登场在即,观展攻略请查收~最新全奖PhD招生/实习招聘汇总,向心动的offer进击吧!开源三年openEuler进入正循环春招拿下红圈offer进这一个群就够了Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务叮咚~《2023洛杉矶赏花攻略》 请查收!倒计时3天!FBIF食品创新展 2023超全逛展攻略请查收!手机版官方ChatGPT首发体验!免费、响应快、新增语音识别Opera推出Opera One,将取代Opera浏览器一份高收入高净值人士省税攻略,请查收!踏青去哪儿?这份攻略请查收→港中文李教授:基于深度学习的语音识别算法研究|收获一作论文与导师推荐信!Agustín Hernández:中美洲建筑背景下的未来主义巨构明天,武汉见 | 研华AIoT创新应用论坛倒计时1天,参会攻略请查收!这份旅游安全攻略,请查收!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。