Redian新闻
>
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat

赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat

公众号新闻

机器之心专栏

作者:冷大炜,360 人工智能研究院

刚刚过去的 22 年被媒体誉为 “AIGC 元年”,这一年中 AI 绘画和 chatGPT 相继引爆了全球科技界,成为人工智能领域的两大里程碑事件,特别是 chatGPT 的推出,又重新点燃了人们对通用人工智能 AGI 的新一轮期待,chatGPT 所表现出来的前所未有的逻辑能力和推理能力,让众多 AI 领域的专家和研究人员不禁为之赞叹。与此同时,更多的企业和机构也开始尝试将 chatGPT 应用于自己的业务中,希望通过人工智能的力量来提升工作效率和解决难题。

ChatGPT 是基于 GPT3.5 开发的纯文本单模态的语言模型,对于它的下一代更新,我们之前猜测除了文本能力的继续提升外,从单模态过渡到多模态将是更为关键的一点,今年 3 月 15 日 GPT4 的推出,证实了我们的推测:GPT4 做为新一代的 GPT 模型,增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成。

增加了多模态能力的 GPT4 也带来了应用层面的更多可能,比如在电商领域中,商家可以将产品图像输入 GPT4 进行描述生成,从而为消费者提供更加自然的商品介绍;在娱乐领域中,GPT4 可以被用于游戏设计和虚拟角色创造,为玩家带来更加个性化的游戏体验和互动快乐。视觉能力一向被视为一个通用人工智能 AGI 智能体所需必备的基础能力,而 GPT4 则向人们生动展示了融合视觉能力的 AGI 的雏形。

视觉能力融合的方案和优劣对比

实际上 GPT4 并不是第一个将视觉与文本模态相融合的工作,CV、NLP 以及机器人等领域的科研人员长久以来一直在探寻各种方法将多个不同模型的信息相融合的方法,像 VQA、Visual Captioning、Visual Grounding 等都已经是多模态下细分的专业研究领域。

具体到将视觉能力融入语言模型 LLM 的 MLLM(Multimodal Large Language Model),相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表性的工作有 MSRA 的 KOSMOS-1 [1] 和 Google Robotics 的 PALM-E [2],均在今年 3 月份公开;另一条是单模态专家模型缝合路线,通过桥接层将预训练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有 Deepmind 的 Flamingo [3],Saleforce 的 BLIP-2 [4],以及近期的 LLAVA [5] 和 miniGPT4 [6] 等工作。

图 1  MLLM 代表性工作时间线

以 KOSMOS-1 和 PALM-E 为代表的原生多模态路线,模型结构主体均为 Transformer 堆叠。下图为 KOSMOS-1 的模型结构和训练方案,其中除了 image encoder 部分使用的是预训练的 CLIP ViT-L/14 外,模型主体 MLLM 部分是 24 层的 Transformer 堆叠,使用原生的多模态数据从头训练。

多模态数据由三部分组成:a) 纯文本,以 Pile 和 Common Crawl 为主;b) image-text pair 数据,以 LAION-2B,LAION-400M,COYO-700M, and Conceptual Captions 为主;c) 图文混合数据(Interleaved Image-Text Data),包含 71M 页图文网页数据。通过将 image embedding 以如下格式与 text embedding 相连缀:<s><image>Image Embedding </image>WALL-E giving potted plant to EVE. </s>,KOSMOS-1 用自回归 loss 对图文数据进行统一建模。

图 2  KOSMOS-1 模型结构与训练方案

PALM-E 与 KOSMOS-1 相比,模型结构和对多模态数据的建模方式基本相同,下图 3 为 PALM-E 的模型结构和训练方案,其中 < emb > 为机器人的状态估计向量。与 KOSMOS-1 相比最大的不同在于,PALM-E 使用单模态语言模型 PALM 的权重对模型进行了初始化。

图 3  PALM-E 模型结构与训练方案

原生多模态路线的优势在于,模型结构原生适配多模态数据,在数据量充足的情况下效果优秀,相关领域的经验也表明这种方式的性能上限更高,但缺点也很明显,不能充分复用各个单模态领域的已有成果,训练需要的计算资源和数据资源都非常大。

与原生多模态路线相对的,以 Flamingo、BLIP-2、LLAVA/miniGPT4 为代表的单模态专家模型缝合路线,从一开始模型的设计思路就是尽可能复用各个单模态领域的已有成果特别是近期发展迅速的 LLM 的预训练模型。Flamingo 是 Deepmind 在 22 年 11 月发表的工作,在 freeze 住 vision encoder 和 LM 的基础上,通过在 LM 中插入多个 cross-attention 层来实现视觉信息与文本信息的对齐和联合学习。

图 4  Flamingo 模型结构与训练方案

与 KOSMOS-1 相比,Flamingo 这种缝合方案充分利用了 CV 领域和 NLP 领域的已有成果,vision encoder 和 LM 均不需要训练,只需要对做为不同模态信息之间做为桥接的 cross-attention 层(图 4 中的 GATED XATTN-DENSE)进行训练,因此至少在模型训练成本上就有很明显的优势。

而 23 年 1 月 salesforce 发表的 BLIP-2 工作以及后续衍生的 LLAVA、miniGPT4 等工作则将这一思路进一步简化到 vision encoder 和 LM 之间只通过单个桥接层进行链接,下图 5 是 BLIP-2 的模型结构,其中视觉侧和文本侧分别使用预训练的 CLIP ViT-G/14 模型和 FLAN-T5 模型,仅中间的起桥接作用的 Q-Former 参与训练,训练需要的成本和数据量进一步降低,BLIP-2 的训练数据量仅 129M,16 卡 A100 训练 9 天。

后来的 LLAVA 工作更是将这一思路简化到极致,仅通过一个 projection layer 将 CLIP ViT-L/14 和 Vicuna 语言模型缝合在一起,训练数据仅用了 595K 图文对以及 158K 指令微调数据。miniGPT4 则是在复用 BLIP-2 的 vision encoder + Q-Former 的基础上,通过一层 project layer 缝合了 Vicuna 语言模型,训练数据仅用了 5M 的图文对数据 + 3.5K 的指令微调数据。

图 5  BLIP-2 模型结构

与原生多模态路线相比,单模态专家模型缝合路线最明显的优势是可以充分复用各个单模态领域的已有成果,成本低,见效快,有研究人员猜测 GPT4 可能也是基于缝合路线实现的视觉理解能力。但基于缝合路线的缺陷也显而易见,尤其像 BLIP-2、LLAVA、miniGPT4 这样简单的浅层融合方案,最终训练得到的 MLLM 模型能力通常只能做单轮或多轮对话,不具备像 Flamingo 这种深层融合方案以及 KOSMOS-1、PALM-E 等原生多模态方案所展现出的多模态 in-context learning 能力。

SEEChat 多模态对话模型

SEEChat 项目(https://github.com/360CVGroup/SEEChat)的重点是将视觉能力与已有的 LLM 模型相融合,打造侧重视觉能力的多模态语言模型 MLLM。在多模态能力的实现路线上,我们选择了能够充分复用不同领域已有成果的单模态专家模型缝合路线(Single-modal Experts Efficient integration), 这也是 SEEChat 项目的命名来源。

SEEChat v1.0 的模型结构如下图 6 所示,通过 projection layer 桥接层,将 vision encoder: CLIP-ViT-L/14 与开源的中文 LM:chatGLM6B 缝合到一起。

图 6  SEEChat 模型结构

SEEChat v1.0 的训练分为两个阶段:第一阶段是图文对齐训练,使用我们之前开源的高质量中文图文对数据集 Zero [7],总共 2300 万样本进行训练;第二阶段是人机对齐训练,使用 miniGPT4+LLAVA 开源的指令微调数据经英 - 中翻译后,对第一阶段训练好的模型进行指令微调。

下图 7~9 是关于 SEEChat v1.0 在图文对话、代码生成和目标分类能力的简单展示。可以看到,SEEChat 一方面继承了 chatGLM 语言模型在对话方面的能力(当然也继承了其缺点),另一方面表现出了令人印象深刻的图文对齐和视觉理解能力。

图 7  SEEChat v1.0 图文对话展示


图 8  SEEChat v1.0 图文对话展示

图 9  SEEChat v1.0 图文对话展示

SEEChat 并不是第一个开源的中文多模态对话模型,同期 5 月份,已经有中科院自动化所的 X-LLM [8] 和清华 KEG 组的 VisualGLM [9] 相继开源。与之相比,SEEChat v1.0 不论在路线选择还是模型结构上与前述两个工作大体相同,只在模型细节和训练数据与方法上存在不同。我们认为,对于当前的浅层融合方案,一个很关键的点在于训练用的数据质量而不是数量。我们在 image captioning 任务上将 SEEChat v1.0 与相关的多个工作进行了对比:

  • 从中文 Zero 数据集中随机选取 1000 张中文互联网图像,已排除训练集数据
  • 使用 ChineseCLIP [10] 计算图文相关性得分(为避免训练数据重叠带来的偏置,我们没有使用自己训练的 R2D2 中文跨模态模型,而是选取了第三方训练的跨模态模型进行图文相关性得分的评价)
  • 上图为七种公开方法(我们将数据原生的互联网文本做为其中一种方法看待)的图文相关性得分胜出情况

可以看到,使用高质量图文数据集 Zero 训练的 SEEChat v1.0,胜出率甚至大比例超过原生文本。

图 10  不同模型在 Image Captioning 任务上的对比

未来的工作

SEEChat 项目包含两个版本:内部闭源版本使用企业内部数据训练,主打业务生产力;外部开源版本使用公开数据训练,主打能力展示和社区影响。目前 SEEChat v1.0 的内部版本已在集团内部业务落地,并在 5 月 31 日以 “360 智脑 - CV 多模态大模型” 的品牌对外发布。

如前所述,SEEChat 项目的重点是将视觉能力与已有的 LLM 模型相融合,打造侧重视觉能力的多模态语言模型 MLLM,v1.0 验证了基础的图文对齐和视觉理解能力,接下来我们将逐步为 MLLM 添加目标检测能力、跨模态能力以及开放词表的目标检测与识别能力,模态融合方案也将从浅层融合向深层融合过渡,敬请期待。

作者简介

冷大炜:360人工智能研究院视觉引擎部负责人,目前带领研究院视觉团队在多模态大模型,AIGC,跨模态图文学习,开放世界目标检测,开放词表视频分析,AIoT等方向进行前沿探索和工业落地工作。

参考文献

[1] Huang, Shaohan, et al. "Language is not all you need: Aligning perception with language models." arXiv preprint arXiv:2302.14045 (2023).
[2] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).
[3] Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." Advances in Neural Information Processing Systems 35 (2022): 23716-23736.
[4] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." arXiv preprint arXiv:2301.12597 (2023).
[5] Liu, Haotian, et al. "Visual instruction tuning." arXiv preprint arXiv:2304.08485 (2023).
[6] Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." arXiv preprint arXiv:2304.10592 (2023).
[7] Zero, https://zero.so.com/
[8] Chen, Feilong, et al. "X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages." arXiv preprint arXiv:2305.04160 (2023).
[9] VisualGLM, https://github.com/THUDM/VisualGLM-6B
[10] ChineseCLIP, https://github.com/OFA-Sys/Chinese-CLIP

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框苹果Siri、亚马逊Alexa计划集成LLM;电信推出通用视觉大模型;欧盟达成《人工智能法》协议丨AIGC大事日报从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力呱呱随笔:远离危险与试探,由我吃牛油果差点噎死说起VPGTrans: 用10%的成本定制一个你自己的GPT-4多模态对话模型5057 血壮山河之武汉会战 鏖战幕府山 26多模态大语言模型综述来啦!一文带你理清多模态关键技术率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步巴黎市长将重修Châtelet 广场以方便行人中国人工智能研究报告:大模型和全民AI心情就像风一样自由---我们不需要枚举LaVIN—多模态对话模型的高效指令微调清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA对话三位IEEE专家:如何理解SAM视觉大模型中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作10B量级开源中文对话LLM,谁最「懂」人话?《月光如水》&《种花闲》文生图模型又“卷”起来了!比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」10B 以下开源中文对话模型,谁领风骚(1)阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl七绝 翻看老照片对话清华大学人工智能研究院朱军:火爆的AI大模型,暗藏哪些安全风险?全新中文大模型多任务基准CMMLU:评估中文多任务语言理解能力北京内推 | 智源人工智能研究院招聘CV/NLP方向科研实习生给语言大模型加上综合视听能力,达摩院开源Video-LLaMAVPGTrans: 用10%的成本定制一个你自己的GPT4多模态对话模型能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型VPGTrans:10% 的成本定制你自己的类 GPT-4 多模态对话模型清华人工智能研究院「基础模型研究中心」成立!唐杰任研究中心主任,孙茂松任首席科学家【城事】巴黎市长将重修Châtelet 广场以方便行人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。