能说会唱，AudioGPT惊艳亮相！浙大、北大、CMU等提出全新音频理解与生成系统

公众号新闻

2023-05-01 05:05

新智元报道

编辑：好困

【新智元导读】近日，来自浙大、北大、CMU和人大的研究人员提出了一种全新的音频理解与生成系统AudioGPT。不仅能够实现跨模态转换，以及音频模态的理解、生成，还能能够解决20+种多语种、多模态的AI音频任务。

最近几个月，ChatGPT、GPT-4横空出世，火爆出圈，大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力，引起了学界和业界的极大关注，也让人们看到了LLM在构建通用人工智能 (AGI) 系统方面的潜力。

现有的GPT模型具有极高的语言生成能力，是目前最为先进的自然语言处理模型之一，广泛应用于对话、翻译、代码生成等的自然语言处理领域。

除了书面语言，用户在自然对话中主要使用口语（Spoken Language），而传统大语言模型却无法胜任音频理解与生成任务：

GPT模态限制

用户在自然对话中主要使用口语，对口语理解与合成有极大需求，而单模态GPT不能满足对音频(语音、音乐、背景音、3D说话人)模态的理解、生成需求。

音频数据、模型相对少

基础模型（Foundation Model）少或交互性差。相较于文本模态，用于重新训练语音多模态GPT的数据较少。

用户交互性差

用户广泛的使用语音助手如Siri、Alexa基于自然对话高效地完成工作。然而目前GPT之间的交互大多根据键盘输入的文本，交互性差，口语交互更能拉进和用户之间的关系，提升模型易用性。

最近，浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员针对以上难题，提出了全新的音频理解与生成系统AudioGPT。

AudioGPT以ChatGPT充当负责对话与控制的大脑，语音基础模型协同以完成跨模态转换、以及音频（语音、音乐、背景音、3D说话人）模态的理解、生成，能够解决20+种多语种、多模态的AI音频任务。

论文地址：https://arxiv.org/pdf/2304.12995.pdf

Github：https://github.com/AIGC-Audio/AudioGPT

Huggingg Face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT

听觉效果超炫

现在，HuggingGPT增加了Gradio演示:

话不多说，咱们直接看一个AudioGPT对话的例子，包括里面保含了文本、图像和语音三种模态的输入，AudioGPT能理解不同模态的输入，生成结果也能以文本、图像、音频相结合的方式展现给用户。

语音

Q1: Generate a speech with text "here we go".

A1:

Q2: Transcribe this speech.

A2: Here we go.

Q3: Separate each speech from the speech mixture.

A3:

音乐

Q4: Please generate a piece of singing voice. Text sequence is 小酒窝长睫毛AP是你最美的记号. Note sequence is C#4/Db4 | F#4/Gb4 | G#4/Ab4 | A#4/Bb4 F#4/Gb4 | F#4/Gb4 C#4/Db4 | C#4/Db4 | rest | C#4/Db4 | A#4/Bb4 | G#4/Ab4 | A#4/Bb4 | G#4/Ab4 | F4 | C#4/Db4. Note duration sequence is 0.407140 | 0.376190 | 0.242180 | 0.509550 0.183420 | 0.315400 0.235020 | 0.361660 | 0.223070 | 0.377270 | 0.340550 | 0.299620 | 0.344510 | 0.283770 | 0.323390 | 0.360340.

A4:

音效

Q5: Generate an audio of a piano playing.

A5:

Q6: Give me the description of this audio.

A6: The audio is recording of a goat bleating nearby several times.

3D说话人

Q7: Generate a talking human portrait video.

A7:

此外，论文中还有一个多轮对话与上下文理解的例子：