为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT
机器之心编辑部
「 SpeechGPT 为打造真正的多模态大语言模型指明了方向:将不同模态的数据(视觉,语音等)统一表示为离散单元集成在 LLM 之中,在跨模态数据集上经过预训练和指令微调,来使得模型具有多模态理解和生成的能力,从而离 AGI 更进一步。」—— 复旦大学计算机学院教授邱锡鹏
论文链接:https://arxiv.org/pdf/2305.11000.pdf demo 地址:https://0nutation.github.io/SpeechGPT.github.io/ GitHub 地址:https://github.com/0nutation/SpeechGPT
它不考虑语音中的语音外语言信息,例如无法以不同的情绪语调生成回应; 它在生成基于语音的回应之前需要生成基于文本的回应; 由于上下文长度的限制,它无法支持多轮对话。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章