Redian新闻
>
剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型

剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】能听还能看,给模型不同的感官理解世界!


当下的大型语言模型,如ChatGPT只能接收文本作为输入,即便升级版的GPT-4也只是增加了图像输入的功能,无法处理其他模态的数据,如视频、音频等。

 

最近,来自剑桥大学、奈良先端科学技术大学院大学和腾讯的研究人员共同提出并开源了通用指令遵循模型PandaGPT模型,也是首个实现了跨六种模态(图像/视频、文本、音频、深度、thermal和IMU)执行指令遵循数据的基础模型。

 

论文链接:https://arxiv.org/pdf/2305.16355.pdf

代码链接:https://github.com/yxuansu/PandaGPT

 

在没有明确多模态监督的情况下,PandaGPT就展现出了强大的多模态能力,可以执行复杂的理解/推理任务,如详细的图像描述生成、编写视频启发的故事、回答有关音频的问题,或是多轮对话等。

 

 

总之,PandaGPT的核心创新在于可以同时接受多个模态输入,并自然地组合不同模态的语义,超越传统的单模态分析,扩展了下游应用场景,也更贴近AGI的实现方式。

 

示例

 

基于图片的问答:

 

 

基于图片的多轮问答:

 

 

基于视频的问答:

 

 

受图像/视频启发的创意性写作:

 

 

视觉推理能力:

 

 

音频推理能力:

 

 

图片+音频的多模态理解能力:

 

 

视频+音频的多模态理解能力:

 

 

多模态PandaGPT

 

和困在计算机内的AI模型相比,人类具有多种感官来了解世界,可以看一幅画,可以听到自然界的各种声音;机器如果也能输入多模态的信息,就可以更全面地解决各种问题。

 

目前多模态的研究大多数局限于单模态,或是文本与其他模态的组合,缺乏感知和理解多模态输入的整体性和互补性。

 

为了让PandaGPT具有多模态输入能力,研究人员结合了ImageBind的多模态编码器和大型语言模型Vicuna,二者在视觉和音频基础的指令遵循任务中都取得了非常强大的性能。

 

同时,为了使二个模型的特征空间一致,研究人员使用开源的16万个图像-语言指令遵循数据来训练PandaGPT,其中每个训练实例包括一个图像和一组多轮对话数据,对话中包含每轮人类的指令和系统的回复。

 

为了减少可训练参数的数量,研究人员只训练用来连接Vicuna的ImageBind表征,以及Vicuna的注意力模块上的额外LoRA权重。

 

 

训练过程中,按照8×A100 40G GPU的计算资源来算,Vicuna-13B最大序列长度被设定为400的情况下,训练需要大约7小时。

 

值得注意的是,当前版本的PandaGPT只用对齐的图像-文本数据进行训练,但通过利用冻结的ImageBind编码器中继承的六种模态(图像/视频、文本、音频、深度、thermal和IMU)的绑定属性,PandaGPT展示出了涌现,即零样本跨模态的能力。

 

限制

 

尽管PandaGPT在处理多模态及模态组合方面有惊人的能力,但还有几种方法可以用来进一步改进PandaGPT:

 

1. PandaGPT的训练过程可以通过引入更多对齐数据来丰富,比如其他与文本匹配的模态(音频-文本)

 

2. 研究人员对文本以外的模态内容只使用一个嵌入向量来表征,还需要对细粒度的特征提取畸形更多研究,如跨模态的注意力机制可能会对性能提升有好处

 

3. PandaGPT目前只是将多模态信息作为输入,未来可能会在生成端引入更丰富的多媒体内容,比如在音频中生成图像和文字回复。

 

4. 还需要有新的基准来评估多模态输入的组合能力

 

5. PandaGPT也可以表现出现有语言模型的几个常见缺陷,包括幻觉、毒性和刻板印象。

 

研究人员也指出,PandaGPT目前还只是一个研究原型,不能直接用于现实世界的应用。

参考资料:
https://huggingface.co/spaces/GMFTBY/PandaGPT
https://panda-gpt.github.io/
https://github.com/yxuansu/PandaGPT




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《国画牡丹》&《问风》字节 | 大模型BuboGPT:引入视觉定位,实现细粒度多模态,已开源斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二九剑一魂 - 第24回 汉胡同源 九剑一魂(二)剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态剑桥&腾讯AI Lab提出PandaGPT:一个模型统一六种模态ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTACIPS ATT | 一线国内大模型研究学者系统讲授大模型基础及应用前景,速览课程要点!大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4ToolsGPT-3计划开源!Sam Altman自曝急缺GPU,GPT-4多模态能力明年开放“伶荔(Linly)”项目团队全新发布中文Falcon基础模型Prompt Sapper:基础模型的灵魂伴侣,AI服务的创新工场智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力空巢日记摘要2005为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT让ChatGPT调用10万+开源AI模型!HuggingFace新功能爆火:大模型可随取随用多模态AI工具移民生活(五)罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型AI越来越神:7人团队开发,一句话生成3D游戏的MoonlanderAI是啥中国AI大模型地图发布;GPT研究烧掉30亿美金;美团正自研基础模型丨AIGC大事日报复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好OpenAI劲敌融资13亿美元;中国团队推首颗AI全自动设计CPU;全球首个医疗多模态基础模型群发布丨AIGC大事日报北大团队开源首个法律大模型;联合国将就AI威胁和平会谈;Stability AI CEO称程序员将在5年内消失丨AIGC大事日报GPT-3 计划开源!Sam Altman 自曝急缺 GPU,GPT-4 多模态能力明年开放中科院自动化所「全模态」大模型亮相,图文音视频3D传感器信号都能理解Juneteenth「六月节」的历史清华人工智能研究院「基础模型研究中心」成立!唐杰任研究中心主任,孙茂松任首席科学家做了抖音最新受害者微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。