Redian新闻
>
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

公众号新闻
机器之心专栏

机器之心编辑部

近日,来自剑桥、NAIST 和腾讯 AI Lab 的研究者推出了一款名为 PandaGPT 的跨模态语言模型,展示了在人工智能领域的创新尝试。通过结合 ImageBind 的模态对齐能力和 Vicuna 的生成能力,同时实现了六种模态下的指令理解与跟随能力。虽然 PandaGPT 的效果尚有提升空间,但展示了跨模态 AGI 智能的发展潜力。

来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果,这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入,并自然地组合它们的语义。

  • 项目主页: https://panda-gpt.github.io/

  • 代码: https://github.com/yxuansu/PandaGPT

  • 论文: http://arxiv.org/abs/2305.16355

  • 线上 Demo 展示: https://huggingface.co/spaces/GMFTBY/PandaGPT


为了实现图像 & 视频、文本、音频、热力图、深度图、IMU 读数六种模态下的指令跟随能力,PandaGPT 将 ImageBind 的多模态编码器与 Vicuna 大型语言模型相结合(如上图所示)。
为了使 ImageBind 的多模态编码器和 Vicuna 的大型语言模型的特征空间对齐,PandaGPT 使用了组合 LLaVa 和 Mini-GPT4 发布的共 160k 基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。
为了避免破坏 ImageBind 本身的多模态对齐性质和减少训练成本,PandaGPT 只更新了以下模块:
  1. 在 ImageBind 的编码结果上新增一个线性投影矩阵,将 ImageBind 生成的表示转换后插入到 Vicuna 的输入序列中;

  2. 在 Vicuna 的注意力模块上添加了额外的 LoRA 权重。两者参数总数约占 Vicuna 参数的 0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在 8×A100 (40G) GPUs 上完成训练需要约 7 小时。

值得强调的是,目前的 PandaGPT 版本只使用了对齐的图像 - 文本数据进行训练,但是继承了 ImageBind 编码器的六种模态理解能力(图像 / 视频、文本、音频、深度度、热量图和 IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。
在实验中,作者展示了 PandaGPT 对不同模态的理解能力,包括基于图像 / 视频的问答,基于图像 / 视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:
图像:


音频:

视频:

与其他多模态语言模型相比,PandaGPT 最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。
视频 + 音频:

图像 + 音频:

总结
作者们也总结了目前 PandaGPT 的诸多问题以及未来的发展方向。尽管 PandaGPT 在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升 PandaGPT 的性能。
  1. PandaGPT 可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用 ASR 和 TTS 数据来进行音频 - 文本模态的模态理解和指令跟随能力。

  2. 文本以外的其他模态仅仅使用了一个 embedding 向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。

  3. PandaGPT 目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个 AIGC 统一到同一个模型之中,即一个模型同时完成图像 & 视频生成、语音合成、文本生成等任务。

  4. 需要新的基准测试来评估多模态输入的组合能力。

  5. PandaGPT 还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。

最后,作者们强调,PandaGPT 仅仅是一个研究原型,暂时还不足以直接应用于生产环境。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家Google提出LaCLIP:大语言模型重写本文输入,让CLIP重焕光彩!是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象 |【经纬科创汇*AI】多模态大语言模型综述来啦!一文带你理清多模态关键技术化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物​中科大和腾讯发布首篇《多模态大语言模型综述》早财经丨格力称孟羽童已离职;天舟六号与空间站完成交会对接;谷歌发布AI语言模型PaLM 2,挑战GPT-4给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源征稿 | ACM MM 23 Workshop - 基于大语言模型的多模态研究和应用今年的清明非同寻常大语言模型的进化树,这是一份超详细ChatGPT「食用」指南剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态首款人类粪便制成的口服药获美国FDA批准;谷歌本周将发布最新大语言模型PaLM 2|环球科学要闻对标GPT-4!谷歌发布大语言模型PaLM 2,可在手机运行,云、搜索、电邮等一网打尽!ChatGPT的朋友们:大语言模型经典论文一次读到吐写给表姐的一封信艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展谷歌I/O开发者大会发布全新大语言模型,反超GPT-4!办公全家桶炸裂升级,还带来了首款折叠屏手机被泄露的大语言模型LLaMA,引爆ChatGPT平替狂潮苏炳添起诉网易侵权;阿里云正式推出大语言模型通义千问;京东零售取消事业群制;联合国将官宣印度成人口第一大国丨邦早报剑桥&腾讯AI Lab提出PandaGPT:一个模型统一六种模态CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型《蓝色的哈达》&《饮酒欢歌》重磅!谷歌全新语言模型PaLM 2挑战GPT-4;格力:孟羽童已离职;阿里巴巴取消CTO职位丨邦早报盛名之下其实难副的日本温泉5042 血壮山河之武汉会战 鏖战幕府山 11大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。