Redian新闻
>
ChatGPT充当大脑,指挥AudioGPT解决语音、音乐、音效等任务

ChatGPT充当大脑,指挥AudioGPT解决语音、音乐、音效等任务

公众号新闻

机器之心专栏

机器之心编辑部

能说会唱的 AudioGPT 惊艳亮相。


最近几个月,ChatGPT、GPT-4 横空出世,火爆出圈,大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力,引起了学界和业界的极大关注,也让人们看到了 LLM 在构建通用人工智能 (AGI) 系统方面的潜力。

现有的 GPT 模型具有极高的语言生成能力,是目前最为先进的自然语言处理模型之一,广泛应用于对话、翻译、代码生成等的自然语言处理领域。除了书面语言,用户在自然对话中主要使用口语 (Spoken Language),而传统大语言模型却无法胜任音频理解与生成任务:

  • GPT 模态限制。用户在自然对话中主要使用口语,对口语理解与合成有极大需求,而单模态 GPT 不能满足对音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成需求。
  • 音频数据、模型相对少。基础模型 (Foundation Model) 少或交互性差。相较于文本模态,用于重新训练语音多模态 GPT 的数据较少。
  • 用户交互性差。用户广泛的使用语音助手如 Siri, Alexa 基于自然对话高效地完成工作。然而目前 GPT 之间的交互大多根据键盘输入的文本,交互性差,口语交互更能拉进和用户之间的关系,提升模型易用性。

最近,浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员针对性的解决以上难题,提出了全新的音频理解与生成系统 AudioGPT。AudioGPT 以 ChatGPT 充当负责对话与控制的大脑,语音基础模型协同以完成跨模态转换、以及音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成,能够解决 20 + 种多语种、多模态的 AI 音频任务。


  • 论文地址:https://arxiv.org/pdf/2304.12995.pdf
  • Github:https://github.com/AIGC-Audio/AudioGPT
  • Huggingg Face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT


听觉效果超炫

现在,HuggingGPT 增加了 Gradio 演示:


话不多说,直接看一个 AudioGPT 对话的例子,涵盖文本、图像和语音三种模态的输入,AudioGPT 能够理解不同模态的输入,生成结果也能以文本、图像、音频相结合的方式展现给用户。

语音

Q1: "Generate a speech with text"here we go"."
A1:  

Q2: "Transcribe this speech."
A2:  Here we go.
Q3: "Separate each speech from the speech mixture."


A3:  

音乐

Q4:  "Please generate a piece of singing voice. Text sequence is 小酒窝长睫毛 AP 是你最美的记号. Note sequence is C#4/Db4 | F#4/Gb4 | G#4/Ab4 | A#4/Bb4 F#4/Gb4 | F#4/Gb4 C#4/Db4 | C#4/Db4 | rest | C#4/Db4 | A#4/Bb4 | G#4/Ab4 | A#4/Bb4 | G#4/Ab4 | F4 | C#4/Db4. Note duration sequence is 0.407140 | 0.376190 | 0.242180 | 0.509550 0.183420 | 0.315400 0.235020 | 0.361660 | 0.223070 | 0.377270 | 0.340550 | 0.299620 | 0.344510 | 0.283770 | 0.323390 | 0.360340."
A4:

音效

Q5: "Generate an audio of a piano playing."
A5: 

Q6: Give me the description of this audio. 


A6: The audio is recording of a goat bleating nearby several times.

3D 说话人

Q7: Generate a talking human portrait video. 


A7: 


此外,论文中还有一个多轮对话与上下文理解的例子:


AudioGPT 语音模型在现有模型中具有不同的优势:

1. 相较于文本 GPT:ChatGPT、GPT4 等语言模型侧重于自然语言处理领域,在多模态理解与合成上福利少了一些,AudioGPT 则将重点放在了音频多模态的理解与生成。
2. 相较于 Siri 等检索模型:与简单检索并以语音回复检索模型相比,AudioGPT 强大的生成式对话,使得用户能够更加实时地获取和处理与内容相关的音频。
3. 相较于视觉任务 GPT:图像不存在像音频一样的语种分类,音频中存在不同语种:如中文、英文、法语等,AudioGPT 还需要进行语种管理。

技术原理

AudioGPT 在收到用户请求时使用 ChatGPT 进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和众多的语音基础模型,AudioGPT 能够完成几乎所有语音领域的任务。

AudioGPT 为走向语音通用人工智能开辟了一条新的道路。AudioGPT 运行过程可以分成 4 个阶段:模态转化、任务分析、模型分配和回复生成。


截至目前,AudioGPT 涵盖了语音识别、语音合成、语音翻译、语音增强、语音分离、音频字幕、音频生成、歌声合成等任务。实验结果证明了 AudioGPT 在处理多模态信息和复杂 AI 任务方面的强大能力。

目前多模态的 LLM 层出不穷,Visual ChatGPT,HuggingGPT 等模型吸引了越来越多的关注,然而如何测评多模态 LLM 模型也成了一大难点。为了解决这一难点,研究人员为多模态 LLM 的性能评估设计了测评准则和测评过程。具体来说,AudioGPT 提出从三个方面测评多模态 LLM:

  • 一致性(Consistency):度量 AudioGPT 是否正确的理解用户意图,并为之分配所需的模型
  • 稳定性(Capabilitity):度量基础的语音模型在其特定任务上的性能表现
  • 鲁棒性(Robustness):度量 AudioGPT 是否能正确的处理一些极端的例子

针对一致性,研究人员设计了一套基于人工测评的流程。如下图所示:


针对稳定性,AudioGPT 调研了各语音基础模型在单任务领域的性能表现。


针对鲁棒性,研究人员从四个方面进行评估:

  • 多轮对话的稳定性:多模态 LLM 应该具备处理多轮对话的能力并且能处理上下文关系
  • 不支持的任务:目前多模态 LLM 并非万能的,当收到无法解决的请求时,多模态 LLM 也应该给予用户反馈
  • 错误处理:多模态基础模型可能由于不同的原因而失败,例如不支持的参数或不支持的输入格式。在这种情况下,多模态 LLM 需要向用户提供合理的反馈,以解释遇到的问题并提出潜在的解决方案
  • 上下文中断:多模态 LLM 被期望处理不在逻辑序列中的查询。例如,用户可能会在查询序列中提交随机查询,但会继续执行具有更多任务的先前查询

网友热评

最后,项目刚刚开源,可以在 Github 和 Huggingface 体验。对于这个新工具的诞生,网友们很是兴奋,有人表示:


AudioGPT 是大语言模型在音频处理领域的福利。

还有网友认为,五音不全的也可以借助 AudioGPT 唱歌了:



有网友称,期待在个人 PC 上也能用到这样的模型,将能够创造出丰富多样的音视频内容。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步Conagen和Natáur达成合作,生产可持续天然牛磺酸集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布何谓传统?IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!龚贤的诗卷新泽西州雕塑公园(Grounds for scuplture),园内景色英国少女只剩一年寿命,却梦想开坦克,当铁匠,指挥军舰…最终全实现了!若ChatGPT指挥四渡赤水,比之毛主席如何?前50名5折福利!击败Google的国货耳机!音效甩欧美大牌,隐藏1功能无人能敌...童声合唱团里的罪恶!巡演中,指挥走进孩子淋浴间·····Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务剧情反转,看GPT解读:为何职场被逼加班谣言会快速传播?李春生被“双开”!曾任广东省公安厅厅长8年,指挥剿灭广东“冰毒教父”【城事】巴黎市长将重修Châtelet 广场以方便行人天!湾区居然还有这样的夏令营!运动、艺术、音乐、厨艺、蹦床滑梯等都有,还包吃!就是得抢位!太适合4-9岁娃!微软多模态ChatGPT来了?搞定看图答题、智商测验等任务!本周最火 AutoGPT!GitHub3.6万+标星,解决复杂任务全程无需人类插手GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型23年奥村特色夏令营!让您的孩子今夏探索美术、烘焙、音乐、体操、运动...马斯克AI实验室名字敲定/ Win11任务栏添加ChatGPT搜索/ 沃尔玛限制员工使用ChatGPT…今日更多新鲜事在此早睡早起和我的肉肉们碾压ChatGPT、自主完成任务、Star数超8万的Auto-GPT,是炒作还是未来?雷军入局ChatGPT大战/ AutoGPT星标超PyTorch/ 马斯克星舰今晚发射…今日更多新鲜事在此《卖给洋人》《卖博士》小数据ChatGPT已过时?Auto-GPT迅速走红,无需人类插手自主解决复杂任务,GitHub标星5万语音合成模型NaturalSpeech 2:只需几秒提示语音即可定制语音和歌声巴黎市长将重修Châtelet 广场以方便行人用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事为什么唱片公司、音乐平台、音乐人,都开始热衷流媒体分配模式改革?百度文心一言发来测试邀请 发方言语音、秒画大熊猫 生成式AI时代启幕本周最火AutoGPT!GitHub3.6万+标星,解决复杂任务全程无需人类插手​GPT充当大脑,指挥多个模型协作完成各类任务,通用系统AutoML-GPT来了一套解决语文大难题,帮助孩子学、背、理解古诗词,考试不抓瞎!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。