Redian新闻
>
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有

南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有

公众号新闻

机器之心专栏

机器之心编辑部


作为计算机视觉(CV)研究中长期存在的挑战,视觉识别(如图像分类、目标检测和语义分割)是自动驾驶、遥感等众多计算机视觉应用的基石。深度学习的出现使得视觉识别取得了巨大成功。然而,现有的视觉识别研究大多依赖于昂贵的标注数据进行深度神经网络训练,并且通常需要为每个任务训练一个独立的网络,这导致了耗时费力的识别模式。

为了应对这些挑战,大型视觉语言模型引起了广泛关注并得到深入研究。通过学习互联网上大量图像-文本对之间丰富的视觉语言对应关系,现在可以使用一个视觉语言模型(如 CLIP、ALIGN)进行各种视觉识别任务的零样本预测。

本综述中,来自新加坡南洋理工大学的几位研究者全面研究了针对视觉识别任务的大型视觉语言模型,总结了最近的发展

首先,他们回顾了视觉识别的发展背景。接着介绍了视觉语言模型的基础知识,包括广泛采用的深度网络架构、预训练目标以及用于评估视觉语言模型的下游任务和常用数据集。在此基础上,对视觉语言模型的预训练方法进行了总结和分类。此外,还对基于视觉语言模型的迁移学习和知识蒸馏方法进行了系统分析。最后,对回顾的方法进行了基准测试、分析和讨论,并提出了多个研究挑战和未来视觉识别中可能的研究方向。本综述将持续关注针对视觉识别任务的最新视觉语言模型相关工作。


  • 论文地址:https://arxiv.org/pdf/2304.00685.pdf
  • 项目地址:https://github.com/jingyi0000/VLM_survey

综述动机

1. 视觉语言模型(如 CLIP)的出现显著简化了视觉识别任务的训练模式,减少了对昂贵的精细标注数据的依赖。近年来,大量相关文章证明了研究者对视觉语言模型的浓厚兴趣。

2. 目前缺乏全面的综述来梳理基于视觉语言模型的视觉识别研究,以及面临的挑战和未来的研究方向。

因此,研究者认为有必要对视觉语言模型在各种视觉识别任务中的研究进行系统总结,以填补这一空白。

综述特点

1. 系统性:本文从多个角度对基于视觉语言模型的视觉识别进行了系统总结,包括背景、基础、数据集、方法、基准测试和未来研究方向。

2. 全面性:本文全面总结了相关工作,包括视觉语言模型的预训练方法,以及视觉语言模型的迁移学习和知识蒸馏方法。

3. 详细分类:对于每个方法类别,本文进行了详细分类,总结类似方法的工作,并进行了对比分析。例如,对于视觉语言模型的预训练方法,本文将其分为基于对比学习、基于生成目标和基于对齐目标的三大类,并在每个类别下进一步细(图 1)。

图 1. 综述的分类总览。

图 2. 常用的视觉语言模型预训练数据集总结。

视觉语言模型预训练方法的总结与对比

本文首先对视觉语言模型的预训练方法进行了总结和分类对比,分别为以对比学习为目的的方法、以生成任务为目的的方法和以对齐为目的的方法。

1. 基于对比学习的方法(Pre-Training with Contrastive Objectives)。对比目标通过在特征空间中将配对样本拉近并将其他样本推远来训练视觉语言模型学习具有识别力的特征。本章节根据对比学习的输入,进一步将方法细分为基于图像对比学习的方法,基于图像-文字对比学习的方法和基于图像-文字-标签对比学习的方法。

2. 基于生成任务的方法(Pre-training with Generative Objectives)。基于生成任务的方法通过训练网络进行图像生成、语言生成或跨模态生成来学习语义特征,进一步可细分为基于掩码图像建模的方法、基于掩码语言建模的方法、基于掩码跨模态建模的方法和基于图像到文本生成的方法。

3. 基于对齐目的的方法(VLM Pre-training with Alignment Objectives)。对齐任务目的是在将图像和文字的特征进行匹配,通常可以分为全局的图像-文字匹配和局部的图像区域-单词匹配。

视觉语言模型迁移方法的总结与对比

除了直接将预训练的视觉语言模型应用于下游任务的零样本预测之外,视觉语言模型的迁移学习同样吸引了大量的注意。迁移学习的目的是使得预训练过的视觉语言模型可以更好地适应下游任务。

本文将视觉语言模型的迁移方法主要分为了三大类,分别为提示调整方法、特征适配器方法和其他方法。

1. 提示调整方法(Prompt Tuning)。受自然语言处理中「提示学习」的启发,提示学习方法也被探索并且用于视觉语言模型的迁移中,通过寻找最佳的 prompt,并且不需要微调全部视觉语言模型的参数来适应下游任务。目前的提示调整方法进一步可以被分为文本提示调整、视觉提示调整和文本-视觉提示调整三种方法。

2. 特征适配器方法(Feature Adapter)。特征适配通过额外的轻量级特征适配器对视觉语言模型进行微调,以适应下游任务的图像或文本特征。

3. 其他方法。除了提示调整方法和特征适配器方法,一些研究也通过其他方法对视觉语言模型进行迁移,比如进行对视觉语言模型直接进行微调、更改视觉语言模型的架构等。

视觉语言模型知识蒸馏方法的总结与对比

视觉语言模型可以提取到视觉和文本概念的通用知识,因此一些研究探索了如何提炼通用视觉语言知识,来处理复杂的密集预测任务,例如目标检测和语义分割。

与视觉语言模型迁移方法不同,对视觉语言模型进行知识蒸馏的方法通常不受视觉语言模型架构的限制,并且大部分研究会利用当前最先进的检测或者分割架构的优势来达到更好的性能。

本文根据任务的不同,将知识蒸馏方法分为了针对于开放词汇目标检测(open-vocabulary object detection)的知识蒸馏以及针对于开放词汇语义分割(open-vocabulary semantic segmentation)的知识蒸馏

实验结果比较

本文分别对视觉语言模型的预训练方法、迁移方法和知识蒸馏方法在各自的评估任务上进行了比较,并且对结果进行了分析(图 3-5)。

图 3. 视觉语言模型预训练方法在图像分类任务中零样本预测的性能

图 4. 视觉语言模型迁移方法在图像分类任务中的预测性能

未来方向

最后,本文还分享了一些研究挑战和潜在的研究方向,可以在未来的视觉语言模型研究中进行探索。

对于视觉语言模型的预训练:

  1. 细粒度视觉语言关系建模:通过考虑局部的视觉语言相关性知识,视觉语言模型可以更好地识别图像的区域和像素点,特别对于密集预测任务如目标检测和语义分割,在各种视觉识别任务中起到重要作用。
  2. 统一视觉和语言学习的架构:Transformer 的出现使得图像和文字可以通过相同的方式进行学习,这使得可以采用统一的 Transformer 架构处理图像和文字。与现有采用两个独立网络的视觉语言模型相比,统一视觉和语言学习可以实现跨模态的有效交流,并有效提升预训练的效率。
  3. 多语言适应性的视觉语言模型预训练:目前大多数视觉语言模型仅使用单一语言进行预训练(如英语),限制了其在非英语地区的应用。通过采用多种语言文本进行预训练,可以学习不同语言下相同单词的文化视觉特征,从而使视觉语言模型能够在不同语言环境下高效且有效地工作。

图 5. 视觉语言模型知识蒸馏方法在目标检测上的性能。

对于视觉语言模型的迁移:

  1. 无监督的视觉语言模型迁移:目前的迁移研究大多采用监督或少样本监督学习,需要标记数据,而后者往往容易过拟合到少量样本上。无监督的迁移可以探索大量未标记的数据,并且降低过度拟合的风险。
  2. 使用视觉提示 / 适配器进行迁移:目前的迁移研究主要集中在文本提示学习上。视觉提示学习或视觉适配器可以作为文本提示的补充,在各种密集预测任务中实现像素级的适应,从而获得更好的效果。

对于视觉语言模型的知识蒸馏,可以从两个方面进行进一步探索。第一,可以同时对多个视觉语言模型进行知识蒸馏,通过协调多个视觉语言模型的知识蒸馏来获得更好的效果。第二,可以将知识蒸馏应用于其他视觉识别任务,例如实例分割、全景分割、行人重新识别等,以进一步扩展知识蒸馏的应用领域。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
100万悬赏AI界喜剧之王!北邮、南洋理工等发布「沙雕视频」数据集FunQA:用算法学习人类幽默​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架5076 血壮山河之武汉会战 黄广战役 8最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成​ACL 2023 | ProPETL:一种高效的Parameter-Efficient迁移学习方法大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务2023回国 同学聚会(图)南洋理工大学刘杨教授:没有安全,AI 难落地;没有 AI,安全难保障丨GAIR 2023清华大学:2023大语言模型综合性能评估报告昊字现在在姓名中很流行大型语言模型与知识图谱协同研究综述:两大技术优势互补​ACL 2023 | 为学生模型的学习水平量身定制指导,促进知识蒸馏的效果陌上花开1034 时光静好与君语|南洋理工大学物理博士,高校教师,温和安静如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍博士申请 | 南洋理工大学张书豪老师招收系统和数据处理方向全奖博士/RA/访问学生VALSE 2023 | 左旺孟教授:预训练模型和语言增强的零样本视觉学习代码大模型综述:中科院和MSRA调研27个LLMs,并给出5个有趣挑战Npj Comput. Mater.: “中心-环境”深度迁移学习—快速预测钙钛矿氧化物大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机Offer捷报 l 新加坡南洋理工大学 金融科技 Offer+1!祝贺来自美本Top80的常青藤学子斩获梦校录取!爱是做出来的CVPR 2023 | ​微软亚洲研究院提出TinyMIM,用知识蒸馏改进小型ViT科研实习 | 南方科技大学-腾讯优图实验室招收视觉语言大模型方向访问实习生大语言模型综述全新升级版:85页、600+篇参考文献招聘 | 南洋理工大学校长讲席教授 K. Jimmy Hsia课题组细胞力学方向博士后招聘南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有中国科学院团队首篇LLM模型压缩综述:细聊剪枝、知识蒸馏、量化技术微软亚研提出TinyMIM,用知识蒸馏改进小型ViT大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术多模态大语言模型综述来啦!一文带你理清多模态关键技术下一代语言模型范式LAM崛起!AutoGPT模式席卷LLM,三大组件全面综述:规划、记忆和工具美丽的清晨,美好的一天​中科大和腾讯发布首篇《多模态大语言模型综述》TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。