Redian新闻
>
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速

两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速

公众号新闻

机器之心报道

编辑:张倩

模型小了,幻觉还减轻了。


前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。


不过,从 HeyGen 现在的火爆程度来看,想用它制作类似视频可能要排很久。好在,这并不是唯一的制作方法。懂技术的小伙伴也可以寻找其他替代方案,比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

其中,这个语音转文字的 Whisper 模型非常好用。Whisper 是 OpenAI 研发并开源的一个自动语音识别(ASR,Automatic Speech Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。目前,Whisper 已经有了很多变体,也成为很多 AI 应用构建时的必要组件。

最近,来自 HuggingFace 的团队提出了一种新变体 —— Distil-Whisper。这个变体是 Whisper 模型的蒸馏版,特点是模型小、速度快,而且准确度还很高,非常适合在要求低延迟或资源有限的环境中运行。不过,与能够处理多种语言的原始 Whisper 模型不同,Distil-Whisper 只能处理英文。


论文地址:https://arxiv.org/pdf/2311.00430.pdf

具体来说,Distil-Whisper 有两个版本,参数量分别为 756M(distil-large-v2)和 394M(distil-medium.en)。

与 OpenAI 的 Whisper-large-v2 相比,756M 版本的 distil-large-v2 参数量减少了一半还多,但实现了 6 倍的加速,而且在准确程度上非常接近 Whisper-large-v2,在短音频的 Word Error Rate(WER)这个指标上相差在 1% 以内,甚至在长音频上优于 Whisper-large-v2。这是因为通过仔细的数据选择和过滤,Whisper 的稳健性得以保持,幻觉得以减少。


网页版Whisper与Distil-Whisper速度的直观对比。图源:https://twitter.com/xenovacom/status/1720460890560975103

所以,虽然刚刚发布两三天,Distil-Whisper 的 star 量已经破千。


  • 项目地址:https://github.com/huggingface/distil-whisper#1-usage
  • 模型地址:https://huggingface.co/models?other=arxiv:2311.00430

此外,有项测试结果表明,在处理 150 分钟的音频时,Distil-Whisper 的速度可以达到 Faster-Whisper 的 2.5 倍。



测试链接:https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

那么,这么好的结果是怎么实现的呢?作者在论文中表示,他们利用伪标签技术构建了一个大规模开源数据集,然后利用这个数据集将 Whisper 模型蒸馏成了 Distil-Whisper。利用简单的 WER 启发式,他们只选择质量最高的伪标签进行训练。

下图 1 展示了 Distil-Whisper 的架构。研究者通过从教师模型中复制整个编码器来初始化学生模型,并在训练过程中冻结它。他们通过复制第一个和最后一个解码器层,从 OpenAI 的 Whisper-medium.en 和 Whisper-large-v2 模型中蒸馏出 2 层解码器检查点,分别取名为 distil-medium.en 和 distil-large-v2。


蒸馏得到的模型的维度细节如表 3 所示。
 


在数据方面,模型在 9 个不同的开源数据集(见表 2)上训练了 22,000 小时。伪标签由 Whisper 生成。重要的是,他们使用了 WER 过滤器,只有 WER 得分超过 10% 的标签才会被保留。作者表示,这是保持性能的关键!  


下表 5 展示了 Distil-Whisper 的主要性能结果。


作者表示,冻结编码器的操作使得 Distil-Whisper 在对抗噪声时非常稳健。如下图所示,Distil-Whisper 遵循与 Whisper 相似的鲁棒性曲线,在噪声条件下优于 Wav2vec2 等其他模型。


此外,在处理比较长的音频文件时,与 Whisper 相比,Distil-Whisper 还有效减少了幻觉,作者认为这主要归功于 WER 过滤。

通过共享相同的编码器,Distil-Whisper 可以与 Whisper 配对进行推测解码(Speculative Decoding)。这样,在参数仅增加 8% 的情况下,速度提高了 2 倍,同时输出结果与 Whisper 完全相同。

更多细节请参见原文。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人与植物都喜欢户外环境狂飙演员转做主播月入不足3千:普通演员和“社畜”差不多,迫于生计开始做主播一年仅八款商品销量破千,小绿洲关停给小红书电商上了一课朱会灿:OpenAI开发者大会驱动流量新入口资讯:OpenAI"政变”再反转、人民币对美元汇率升破7.13关口、英伟达百度公布第三季度财报...Sam Altman被罢免背后:OpenAI 首席科学家“政变”?高级员工连夜辞职!0.3%参数推理,实现78倍加速!ETH团队提出UltraFastBERT,构筑语言模型巨人ChatGPT新增两种交互方式,加入语音对话和图像识别功能清理战场不给骗子留借口6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法Meta被曝明年发布「开源版GPT-4级」全新大模型!参数量比Llama 2大数倍,可免费商用刘润:OpenAI董事会宁愿解散都不说的,是什么事?旅美散记(06):坐火车环美国行老钱ZT:世界第一白痴族群现行记AI圈大变天,微软成最大赢家:OpenAI 联合创始人Sam Altman已确认加入微软专访丨积家CEO Catherine Rénier:情感联结和艺术表达对腕表也至关重要脉络:OpenAI已发布的和未来会发布的Achronix黄仑:FPGA加速超低延迟大并发实时智能语音识别|公开课预告谷歌芯片的里程碑:OpenAI的竞争对手部署了谷歌自研TPUTPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏笑谈邂逅(41)与马季先生一饭之缘清华教授刘嘉:OpenAI纷争的潜藏原因 , AGI到底是“工具”还是“超级生命”?墨尔本房价“红黑榜”!华人聚集区Doncaster被高估,这些区将迎“价格爆炸”故宫迷狂喜!曾经进宫才能买到,代购翻倍加价的顶流周边,今年线上原价卖?!重磅|Costco在中国有多火?杭州新店开业5分钟爱马仕抢光!日均客流是美国数倍…….百万级纯电超跑昊铂SSR量产交付,古惠南能给埃安打造“超跑文化”吗?chì rè?zhì rè?千词万字“返场赛”来了!港中文李教授 :基于深度学习的语音情绪识别算法|收获一作论文与导师推荐信!Node.js 21发布,升级V8引擎,带来稳定的WebSteams模块和Test RunnerAltman 被罢免内幕曝光:OpenAI 实现重大技术突破,可能威胁人类Sam Altman放豪言:OpenAI训GPT-5不差钱,人类已接近AGI阈值分割一切「3D高斯」版来了:几毫秒完成3D分割、千倍加速突发:OpenAI鹬蚌相争,微软渔翁得利;西雅图“零交通事故愿景”八年来,死于车祸人数超200;感恩节期间西雅图阳光灿烂"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。