Diffusion反馈强势助力CLIP秒变火眼金睛:智源、自动化所联合推出DIVA
论文作者:
论文链接:
项目主页:
代码链接:
动机何在?——CLIP视觉缺陷
对比语言-图像预训练(CLIP)在跨领域和跨模态的开放世界表示方面表现出色,已成为各种视觉和多模态任务的基础。
自从 CLIP 被提出以来,近年来涌现了许多关于 CLIP 模型的后续研究。这些研究通过预训练和微调 CLIP 模型,取得了性能提升并开发了新的能力。然而,这些方法仍然存在不可避免的局限性,因为它们高度依赖于图像-文本数据对,无法仅在图像数据上实现预期效果。
此外,最近的不少研究指出,尽管 CLIP 在零样本任务中表现出色,但由于对比学习范式和训练中使用的噪声图像-文本对,其在感知理解方面存在一些局限性。这些局限性包括难以准确理解长文本和难以辨别相似图像中的细微差异。虽然一些研究试图解决长文本理解问题,但改善 CLIP 的细粒度视觉感知能力的研究仍然不足。感知视觉细节的能力对于基础模型至关重要,而 CLIP 在这方面的不足直接影响了以 CLIP 作为视觉编码器的视觉和多模态模型的表现。
因此,在这项工作中,我们专注于通过自监督学习范式解决 CLIP 无法区分细粒度视觉细节的问题。基于文本到图像的扩散模型能够生成具有丰富细节逼真图像的先验,我们探索了利用扩散模型的生成反馈来优化 CLIP 表征的潜力。
如何解决?——Diffusion Feedback来优化CLIP视觉细节表征
我们提出了一种简单的 CLIP 模型后训练方法,通过自监督扩散过程在很大程度上克服了其视觉缺陷。通过使用 CLIP 的密集视觉特征对扩散模型进行条件化,并将重建损失应用于 CLIP 优化,我们将扩散模型作为 CLIP 的视觉助手,因此我们将该框架命名为 DIVA。
具体而言,如图 2 所示,DIVA 主要由两个部分组成:一是需要增强视觉感知能力的 CLIP 模型,二是提供生成反馈的预训练扩散模型。输入原始图像和空文本(图 2 中标记为"Null")后,CLIP 模型会编码相应的视觉特征,这些特征将与来自扩散模型文本编码器的空文本嵌入结合,为扩散过程提供条件。
对于添加了噪声的图像,扩散模型尝试在上述条件下预测从前一步到当前步骤中添加的噪声。在训练过程中,除了 CLIP 模型外,所有部分的权重都保持不变,训练目标只是最小化重建损失(即扩散反馈指导)。通过这种方式,通过约束扩散模型更准确地预测添加的噪声,CLIP 的原始语义丰富的判别表示将通过扩散反馈逐渐优化为包含更多视觉细节的表示。
此外更有意思的是,DIVA 不需要额外的文本标注数据,只需可轻易获取的纯图片数据就能大幅使得 CLIP 弥补其视觉感知短板,这一点相比之前方法收集大量图文数据对的高昂成本是非常难得的!
效果如何?——立竿见影!
为了评估 DIVA 的有效性并展示其增强 CLIP 表示的潜力,我们在多模态理解和视觉感知任务上进行了全面的实验。
视觉细粒度感知方面
为了验证 DIVA 能够有效缓解 CLIP 模型固有的视觉能力不足,我们首先在各种现有的 CLIP 模型上进行了实验。DIVA 在评估视觉-语言模型视觉能力的 MMVP-VLM 基准测试中使得现有的多个 CLIP 模型的性能取得了显著的提升(提高了 3-7%)。
接下来,在 DIVA 的帮助下,我们进一步评估了增强后的 CLIP 骨干网络在多模态理解和视觉感知任务中带来的性能提升。DIVA 的优势在于它不仅仅能让 CLIP 变聪明,还能让那些基于 CLIP 的大型多模态语言模型以及视觉模型变得更加厉害。在这些多模态和纯视觉的基准测试上准确率的显著提升,得益于我们 DIVA 范式通过生成反馈大幅增强了 CLIP 的视觉感知能力。
CLIP泛化能力评估
在全面验证了我们的方法提升 CLIP 模型细粒度视觉感知能力的效果后,我们进行了 CLIP 模型原始泛化能力的全面评估。在只由纯图片数据驱动整个框架的前提上,DIVA 能够保持 CLIP 原本优秀的泛化性能。29 个图片分类和图文检索的基准测试上无论是看图识物还是找图配字的实验结果都能证明,经过 DIVA 优化视觉表征之后的 CLIP 模型能够保留 CLIP 原本优秀的泛化能力。
当前局限:
1. 数据和模型规模可进一步扩展;
2. 由于这篇工作只是该方向的一个开始,目前仅展示了生成扩散模型用于提升 CLIP 模型表示的潜力,当前主要关注设计一个简单但有效的框架。
未来可探讨的方向:
1. 可以结合更细粒度的监督方案进一步提升 CLIP 模型的能力;
2. 扩展超越图像-文本数据的其他模态,如视频和音频;
3. 发展基于扩散模型的更通用、更强大的框架,以增强视觉-语言基础模型。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者