Redian新闻
>
OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

公众号新闻


作者 | 刘燕

9 月 21 日,OpenAI 宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。

Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。

OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。

查看论文:https://cdn.openai.com/papers/whisper.pdf

开源代码:https://github.com/openai/whisper

查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md


Whisper 架构是一种简单的端到端方法,实现为编码器 - 解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。


其他现有的方法经常使用更小、更紧密配对的音频 - 文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。

Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。


Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。

你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
苹果汽车售价或低于10万美元/专家:奥密克戎毒力接近流感/荣耀否认借壳上市北京/上海内推 | 小红书智能算法组招聘NLP/音乐/语音识别算法实习生死磕操作系统!谷歌重磅发布开源KataOS,网友:「谷歌坟场」喜+1NVIDIA尝试使用SPARK语言取代C语言八月的故事,母女爱恨难解难分What Happens When Women Are the Breadwinners?Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!T-Space网校2022秋季学期:英文语言艺术类课程突发!医药股重挫,千亿光伏巨头也崩了!背后发生了什么?央视再发文:奥密克戎毒力接近季节性流感!一年 303 个漏洞,Chrome 被评为『最脆弱』浏览器,Opera 最安全!网友:Opera 还有人用?汉堡王下周将推出一款全新的迎合万圣节节日气氛的汉堡 Ghost Pepper Whopper「多语言图像描述」最强评估基准XM3600来了!涵盖36种语言美股SPAC|HyperloopTT将通过与 SPAC合并成为首家专注于超回路列车的上市公司字节AI Lab提出的新多语言多模态预训练方法刷榜!已开源bāo huā shēng?bō huā shēng?我们老中说秃噜嘴的那些英文!重磅!国家正式宣布:奥密克戎毒力接近流感,一两天就好了配上语音识别,推力不输F16!巴基斯坦空军公开J10CE专题报道用一个动作拥有全世界(多图)定制音库成本骤降98%,PaddleSpeech小样本语音合成方案重磅来袭!Medibank事件持续发酵,澳政府震怒!宣布开展官方行动,成立 "黑客 "小组线上! 多语言游戏LQA兼职【妈妈分享】孩子语言发育阶段,英文儿歌可以帮助孩子进步内部语言 · 语言想象 · 言语理解本来高高兴兴,一回头,惊险的一幕发生了使用谷歌文档在 Ubuntu 中对文本进行语音识别 | Linux 中国Costco 肉类水产礼盒限时促销中,至高立减$100!好价入鱼子酱基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说瑞士:多语言国家的典范 | 经济学人文化黄毅翀@哈尔滨工业大学 - 多语言机器翻译中的收敛一致性研究希腊圣岛-1:行走在蓝白世界(住/行信息)清华CodeGeeX项目原作解读:大规模多语言代码生成模型发改委等部门关于发布《重点用能产品设备能效先进水平、节能水平和准入水平(2022年版)》的通知内推! 字节跳动多语言本地化(25-50k)GlobalWoZ: 面向全球通用的人机对话系统——快速构建多语对话能力初探
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。