Redian新闻
>
谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译

谷歌语音人工智能 AudioPaLM,语音传输瞬间翻译

公众号新闻

作者 | Anthony Alford
译者 | 刘雅梦
策划 | 丁晓昀

谷歌的研究人员发布了 AudioPaLM,这是一个大语言模型(LLM),可以通过语音传输执行文本转语音(TTS)、自动语音识别(ASR)和语音到语音翻译(S2ST)。AudioPaLM 是基于 PaLM-2 LLM 的,在翻译基准测试上优于 OpenAI 的 Whisper。

AudioPaLM 是一个基于 Transformer 的纯解码器模型,它将文本和音频输入组合成单个嵌入表示。与使用离散 ASR、机器翻译(MT)和 TTS 模型等级联的传统 S2ST 模型不同,AudioPaLM 可以保留声学特征,例如说话者的声音。AudioPaLM 在 S2ST 和 ASR 基准测试中取得了最先进的成绩,并且还展示了零样本能力,对训练数据中不存在的输入和目标组合执行 ASR。在 FLEURS 数据集上进行评估时,AudioPaLM 在 ASR 任务上“显著”优于 OpenAI 的 Whisper。

InfoQ 最近报道了其他几个多语言人工智能语音模型。2022 年,OpenAI 发布了 Whisper,这是一个基于 Transformer 的编码器 / 解码器 ASR 模型,可以转录和翻译 97 种不同语言的语音音频。今年早些时候,Meta 发布了 MMS,这是一个基于 wav2vec 的模型,可以用 1100 多种语言进行 ASR 和 TTS。

与这些相比,AudioPaLM 是一个基于 Transformer 的纯解码器模型。它是基于预训练的 PaLM-2 的。然后,将模型的标记字典扩展为包括声学标记,声学标记表示音频波形的短片段。它们被映射到与原始模型中文本标记相同的嵌入空间中。然后,模型的输入可以包括音频和文本。文本输入包括任务的简短描述,例如“[ASR 意大利语]”。当模型的输出被解码时,可以使用 AudioLM 模型将声学标记转换回音频波形。

AudioPaLM 的架构图。图片来源:https://google-research.github.io/seanet/audiopalm/examples/

AudioPaLM 接受了来自 100 多种语言的数千小时的音频数据训练。它在多个基准上进行了评估,包括 CoVoST2(AST)、CVSS(S2ST)和 VoxPopuli(ASR)。它在 AST 和 S2ST 上的表现优于基线模型,在 ASR 上具有“竞争力”。在使用 FLEURS 基准的零样本 AST 中,AudioPaLM“显著”优于 Whisper。它在 ASR 任务上也优于 Whisper,Whisper 接受过 ASR 任务所涉及的语言的训练,而 AudioPaLM 没有。

研究人员还评估了 AudioPaLM 的音频生成质量,特别是在 S2ST 期间保留原始说话者的声音方面。他们结合“客观指标和主观评估研究”将其性能与基线模型进行比较,发现它“显著”优于基线。在他们的论文中,谷歌团队指出,需要更好的基准来衡量音频生成的质量:

与文本相比,生成文本 / 音频任务的既定基准集的丰富性还不够成熟。这项工作主要集中在语音识别和语音翻译,它们的基准比较成熟。为生成音频任务建立更多的基准和指标将有助于进一步加快该研究。

一些用户在 Hacker News 的帖子中讨论了 AudioPaLM。在回答关于 LLM 翻译准确性的问题时,鉴于其会“产生幻觉”的倾向,一位用户表示,对于像 AudioPaLM 这样最先进的模型,幻觉“几乎不存在”。关于 AudioPaLM 的翻译,另一位用户观察到:

令人印象深刻的是,它将“Morgenstund hat Gold imMund”(早晨口中含金子)翻译成了相应的英语表达“早起的鸟儿有虫吃”,而不是直译。

AudioPaLM 输出的若干示例可以在网上找到。

原文链接:

https://www.infoq.com/news/2023/07/google-audiopalm/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

大模型竞争突然升级!亚马逊 CEO 亲自监督、组建新的核心技术团队,集中优势资源打造“最具野心”的大语言模型

一场 AI 引发的开源革命迫在眉睫?Hugging Face 更改文本推理软件许可证,不再“开源”

“Twitter如今就像疯人院!”睡地板仍被裁女高管爆料:马斯克带来“恐惧文化”,被裁是最大解脱

网传小红书研发因客户端闪退被辞退;OpenAI将推出代号G3PO的开源LLM;9.9元“妙鸭相机”刷屏,官方点名批评 | Q资讯

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二Meta发布首个开源可商用LLM,硬刚OpenAI和谷歌两大巨头Anthropic推出新版人工智能聊天机器人Claude解锁通用听觉人工智能!清华电子系联合火山语音,开源全新认知导向听觉大语言模型对话|成都大运会学生解说员:用我的声音传递中国力量硅谷人工智能创新之旅精彩回顾 | 与世界顶尖科技企业交流,探索人工智能创新之谜赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat我的小学𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~仅使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice月圆之夜GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?皇帝玩法與國民崇拜:從來都是兩回事「简报」Shapiro 州长访问卡耐基梅隆大学——人工智能的诞生地,签署关于生成式人工智能的行政命令;拓展:以新方式建模神经元MIT打造实验科学家的大模型助手,语音聊天就能开展实验法律翻译 | 拜登-哈里斯政府宣布采取新行动促进可靠的人工智能创新,保护美国人民的权利与安全知圈专栏 | 人工智能的“智能”是什么?— 智能的原理(上)硅谷人工智能创新之旅总回顾 | 与世界顶尖科技企业交流,探索人工智能创新之谜马斯克2023年世界人工智能大会演讲:我相信,中国会有很强的人工智能能力!(附视频&演讲稿)【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据Science | 王潇课题组建立空间翻译组测序技术Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务谷歌发布计划保护您免受人工智能威胁GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023人工智能的瓶颈,并不只有GPU | 海兰云UDC微软推出“智能副驾”(Copilot),您的人工智能日常助手不用LLM,遗传编程可控Python代码!谷歌DeepMind等提出全新ARZ框架|IROS 2023WAIC 实录 | 上海人工智能大会 2023 上的精彩瞬间外派故事 (33) 同学聚会的暧昧人工智能立法提上日程:兼顾安全与发展,为人工智能治理打下框架性基础太凄凉!加拿大老年华人投奔儿女,语言不通被歧视,连看病都要找翻译!群邑:人工智能催生的创业热潮已经影响了一半的广告;欧盟监管机构或要求谷歌出售部分广告技术业务(广告狂人日报)夕阳正西沉
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。