剑桥&腾讯AI Lab提出PandaGPT：一个模型统一六种模态

2023-06-05 06:06

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【目标检测和Transformer】交流群

转载自：机器之心

近日，来自剑桥、NAIST 和腾讯 AI Lab 的研究者推出了一款名为 PandaGPT 的跨模态语言模型，展示了在人工智能领域的创新尝试。通过结合 ImageBind 的模态对齐能力和 Vicuna 的生成能力，同时实现了六种模态下的指令理解与跟随能力。虽然 PandaGPT 的效果尚有提升空间，但展示了跨模态 AGI 智能的发展潜力。

来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果，这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入，并自然地组合它们的语义。

项目主页: https://panda-gpt.github.io/
代码: https://github.com/yxuansu/PandaGPT
论文: http://arxiv.org/abs/2305.16355
线上 Demo 展示: https://huggingface.co/spaces/GMFTBY/PandaGPT

为了实现图像 & 视频、文本、音频、热力图、深度图、IMU 读数六种模态下的指令跟随能力，PandaGPT 将 ImageBind 的多模态编码器与 Vicuna 大型语言模型相结合（如上图所示）。

为了使 ImageBind 的多模态编码器和 Vicuna 的大型语言模型的特征空间对齐，PandaGPT 使用了组合 LLaVa 和 Mini-GPT4 发布的共 160k 基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。

为了避免破坏 ImageBind 本身的多模态对齐性质和减少训练成本，PandaGPT 只更新了以下模块：

在 ImageBind 的编码结果上新增一个线性投影矩阵，将 ImageBind 生成的表示转换后插入到 Vicuna 的输入序列中；
在 Vicuna 的注意力模块上添加了额外的 LoRA 权重。两者参数总数约占 Vicuna 参数的 0.4%。训练函数为传统的语言建模目标。值得注意的是，训练过程中仅对模型输出对应部分进行权重更新，不对用户输入部分进行计算。整个训练过程在 8×A100 (40G) GPUs 上完成训练需要约 7 小时。

值得强调的是，目前的 PandaGPT 版本只使用了对齐的图像 - 文本数据进行训练，但是继承了 ImageBind 编码器的六种模态理解能力（图像 / 视频、文本、音频、深度度、热量图和 IMU）和它们之间的对齐属性，从而具备在所有模态之间跨模态能力。

在实验中，作者展示了 PandaGPT 对不同模态的理解能力，包括基于图像 / 视频的问答，基于图像 / 视频的创意写作，基于视觉和听觉信息的推理等等，下面是一些例子：

图像：

音频：

视频：

与其他多模态语言模型相比，PandaGPT 最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。

视频 + 音频：

图像 + 音频：

总结

作者们也总结了目前 PandaGPT 的诸多问题以及未来的发展方向。尽管 PandaGPT 在处理多种模态及其组合方面具有惊人的能力，但仍有多种方法可以极大程度的提升 PandaGPT 的性能。

PandaGPT 可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力，例如利用 ASR 和 TTS 数据来进行音频 - 文本模态的模态理解和指令跟随能力。
文本以外的其他模态仅仅使用了一个 embedding 向量进行表示，导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究，如跨模态注意力机制，可能有助于提高性能。
PandaGPT 目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个 AIGC 统一到同一个模型之中，即一个模型同时完成图像 & 视频生成、语音合成、文本生成等任务。
需要新的基准测试来评估多模态输入的组合能力。
PandaGPT 还可能表现出现有语言模型的一些常见缺陷，包括幻觉、毒性和刻板印象。

最后，作者们强调，PandaGPT 仅仅是一个研究原型，暂时还不足以直接应用于生产环境。

点击进入—>【目标检测和Transformer】交流群

最新CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者ransformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群