南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
机器之心专栏
论文地址:https://arxiv.org/pdf/2304.00685.pdf 项目地址:https://github.com/jingyi0000/VLM_survey
细粒度视觉语言关系建模:通过考虑局部的视觉语言相关性知识,视觉语言模型可以更好地识别图像的区域和像素点,特别对于密集预测任务如目标检测和语义分割,在各种视觉识别任务中起到重要作用。 统一视觉和语言学习的架构:Transformer 的出现使得图像和文字可以通过相同的方式进行学习,这使得可以采用统一的 Transformer 架构处理图像和文字。与现有采用两个独立网络的视觉语言模型相比,统一视觉和语言学习可以实现跨模态的有效交流,并有效提升预训练的效率。 多语言适应性的视觉语言模型预训练:目前大多数视觉语言模型仅使用单一语言进行预训练(如英语),限制了其在非英语地区的应用。通过采用多种语言文本进行预训练,可以学习不同语言下相同单词的文化视觉特征,从而使视觉语言模型能够在不同语言环境下高效且有效地工作。
无监督的视觉语言模型迁移:目前的迁移研究大多采用监督或少样本监督学习,需要标记数据,而后者往往容易过拟合到少量样本上。无监督的迁移可以探索大量未标记的数据,并且降低过度拟合的风险。 使用视觉提示 / 适配器进行迁移:目前的迁移研究主要集中在文本提示学习上。视觉提示学习或视觉适配器可以作为文本提示的补充,在各种密集预测任务中实现像素级的适应,从而获得更好的效果。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章