ChatGPT充当大脑,指挥AudioGPT解决语音、音乐、音效等任务
机器之心专栏
机器之心编辑部
能说会唱的 AudioGPT 惊艳亮相。
GPT 模态限制。用户在自然对话中主要使用口语,对口语理解与合成有极大需求,而单模态 GPT 不能满足对音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成需求。 音频数据、模型相对少。基础模型 (Foundation Model) 少或交互性差。相较于文本模态,用于重新训练语音多模态 GPT 的数据较少。 用户交互性差。用户广泛的使用语音助手如 Siri, Alexa 基于自然对话高效地完成工作。然而目前 GPT 之间的交互大多根据键盘输入的文本,交互性差,口语交互更能拉进和用户之间的关系,提升模型易用性。
论文地址:https://arxiv.org/pdf/2304.12995.pdf Github:https://github.com/AIGC-Audio/AudioGPT Huggingg Face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT
一致性(Consistency):度量 AudioGPT 是否正确的理解用户意图,并为之分配所需的模型 稳定性(Capabilitity):度量基础的语音模型在其特定任务上的性能表现 鲁棒性(Robustness):度量 AudioGPT 是否能正确的处理一些极端的例子
多轮对话的稳定性:多模态 LLM 应该具备处理多轮对话的能力并且能处理上下文关系 不支持的任务:目前多模态 LLM 并非万能的,当收到无法解决的请求时,多模态 LLM 也应该给予用户反馈 错误处理:多模态基础模型可能由于不同的原因而失败,例如不支持的参数或不支持的输入格式。在这种情况下,多模态 LLM 需要向用户提供合理的反馈,以解释遇到的问题并提出潜在的解决方案 上下文中断:多模态 LLM 被期望处理不在逻辑序列中的查询。例如,用户可能会在查询序列中提交随机查询,但会继续执行具有更多任务的先前查询
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章