Redian新闻
>
即插即用!上交提出Long-CLIP:解锁CLIP的长文本功能

即插即用!上交提出Long-CLIP:解锁CLIP的长文本功能

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和多模态】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:极市平台

导读

 

本文介绍的工作在CLIP的基础上,提出了具有长文本能力的Long-CLIP,弥补了CLIP在长文本建模上的重大短板,并可以即插即用地利用在各种多模态任务中。 

简介

本文介绍了一个名为Long-CLIP的框架。Long-CLIP解决了CLIP有效长度不足、缺乏长文本能力的弊病,并在检索任务上获得了显著提升。此外,Long-CLIP保持了CLIP原始的特征空间,可以在图像生成等下游任务中即插即用地替换CLIP,以实现长文本细粒度图像生成。

图1 Long-CLIP使用场景总览

CLIP对齐了视觉与文本模态,拥有强大的zero-shot泛化能力。因此,CLIP被广泛应用在各种多模态任务中,如图像分类、文本图像检索、图像生成等。

然而,CLIP的一大弊病是在于长文本能力的缺失。首先,由于采用了绝对位置编码,CLIP的文本输入长度被限制在了77个token。不仅如此,实验发现CLIP真正的有效长度甚至不足20个token,远远不足以表征细粒度信息。文本端的长文本缺失也限制了视觉端的能力。由于仅包含短文本,CLIP的视觉编码器也只会提取一张图片中最主要的成分,而忽略了各种细节。这对跨模态检索等细粒度任务是十分不利的。同时,长文本的缺乏也使CLIP采取了类似bag-of-feature(BOF)的简单建模方式,不具备因果推理等复杂能力。

图2 CLIP的不足之处——缺乏长文本与复杂关系建模能力

为此,上海交通大学联合上海人工智能实验室的学者们提出了Long-CLIP模型。通过采用保留知识的位置编码扩充与加入核心成分对齐的微调策略,Long-CLIP模型仅仅额外采用ShareGPT4V数据集中的1M的(长文本,图片)数据对,通过不到100 GPU小时的微调,就可以在检索任务中获得显著提升(长文本-图像检索提升20%,短文本-图像检索提升6%)。不仅如此,Long-CLIP模型保持了CLIP原始的特征空间,因此可以在图像生成等下游任务上即插即用地替代原始的CLIP编码器,以实现长文本细粒度图像生成。以下,将介绍Long-CLIP采取的方法与应用场景。

  • 论文链接:https://arxiv.org/abs/2403.15378
  • 代码链接:https://github.com/beichenzbc/Long-CLIP

1.训练方法

一个简单的扩充输入长度、增强长文本能力的方法是先以固定的比率 λ₁ 对位置编码进行插值,再通过长文本进行微调。然而,这种策略会导致CLIP原始能力的急剧退化。前者破坏了CLIP充分建模的相对位置关系,而后者会使CLIP走入另一个极端:从仅仅关注最主要的特征变为以不论重要性一视同仁地涵盖所有细节。这导致模型在图片分类和短文本检索中的表现大幅下滑。

针对以上问题,研究者们提出了保留知识的位置编码扩充(Knowledge-Preserving Stretching of Positional Embedding)与加入核心成分对齐(Primary Component Matching)的微调策略,在保持甚至超过CLIP短文本能力的同时,解锁了了其长文本能力。

1.1保留知识的位置编码扩充

研究者们发现,CLIP的不同位置编码的训练程度是不同的。由于训练文本很可能以短文本为主,较低位的位置编码训练较为充分,能够精确地表征绝对位置,而较高位的位置编码则仅能表征其大致的相对位置。因此,对不同位置的编码进行插值的代价是不同的。基于以上观察,研究者保留了前20个位置编码,而对于剩下的57个位置编码,则以一个更大的比率 λ₂ 进行插值,计算公式可表示为:

实验表明,相较于直接插值,该策略可以在支持更长的总长度的同时大幅提升在各个任务上的性能。

1.2加入核心属性对齐的微调

仅仅引入长文本微调会使模型走入另一个误区,即一视同仁地囊括所有细节。针对这一问题,研究者们在微调中引入核心属性对齐这一策略。具体而言,研究者们利用主成分分析(PCA)算法,从细粒度的图像特征中提取核心属性,将其余属性过滤后重建粗粒度图像特征,并将其与概括性的短文本进行对齐。这一策略既要求模型不仅能够包含更多的细节(细粒度对齐),同时还能识别并建模其中最为核心的属性(核心成分提取与粗粒度对齐)。

图3 加入核心属性对齐的微调流程

2.应用场景

Long-CLIP在保留CLIP原始特征空间与能力的同时,大幅提升其长文本能力。因而,在图文检索、图像生成等领域,Long-CLIP可即插即用地替换CLIP。

2.1图文检索

Long-CLIP能够在图像与文本模态捕捉更多细粒度信息,从而可以增强相似图像和文本的区分能力,大幅提升图文检索的表现。无论是在传统的短文本检索(COCO、Flickr30k),还是在长文本检索任务上,我们的模型在召回率上均有显著提升。

图4 短文本-图像检索实验结果

图5 长文本-图像检索实验结果

图6 长文本-图像检索可视化,棕色文本为区分两张图片的关键细节

2.2图像生成

CLIP的文本编码器常被用于文本到图像生成模型中,如stable diffusion系列等。然而,由于长文本能力的缺失,用于生成图像的文本描述通常都十分简短,无法个性化地订制各种细节。而Long-CLIP无需任何训练,可以即插即用地替换CLIP作为文本编码器。Long-CLIP既可以突破77个token的限制,实现篇章级别的图像生成(右下),也可以在77个token内建模更多地细节,实现细粒度图像生成(右上)。而对于简单的短文本(左),由于Long-CLIP保持了CLIP的特征空间,可以和原始的CLIP生成相同的内容,图像质量不会产生退化。

图6 图像生成效果演示,棕色文本为CLIP生成时遗失的文本细节

结论:

本文介绍的工作在CLIP的基础上,提出了具有长文本能力的Long-CLIP,弥补了CLIP在长文本建模上的重大短板,并可以即插即用地利用在各种多模态任务中。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和多模态学习交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
陈丹青:你们没有好的长辈,因为你们的长辈就是我们一个小技巧,解锁ChatGPT「预测未来」?上交提出TrustGAIN,提出6G网络中可信AIGC新模式!ICLR 2024 | AnomalyCLIP:零样本异常检测新范式MetaCLIP:带你揭秘CLIP数据openEuler 学习赛等你来战:解锁开源之力,赢取丰厚奖品!| Q推荐CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA超实用多功能电炒锅!无需明火插电即用,煎炒烹炸炖煮蒸涮,美味“触”手可得~纳土纳海:解锁马六甲困局Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。冬雨周末简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法《希望》&《遇见》(陕西话版)华为Mate60系列没有停产,商务部部长会见库克,雷军发SU7路测视频,文心一言或开放百万长文本能力,这就是今天的其他大新闻!吕洪来:中共政权垮台后,需要“国际共管”来度过社会转型期实测钉钉 AI 助理大更新:除了卷到飞起的长文本,我们还发现了这些细节几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling苹果和百度讨论 AI 合作;雷军公布第二批小米汽车交付中心城市候选名单;阿里、百度将推出大模型长文本功能 | 极客早知道男生喜欢的长相和女生喜欢的长相,有啥区别?匿名论文提出奇招!增强大模型长文本能力居然还能这么做ICML 2024 | 即插即用!无需训练!基于球面高斯约束引导的条件扩散模型上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率Kimi连续宕机打醒巨头!阿里百度360连夜出手长文本,大模型商业化厮杀开始了Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展让人物动起来!南大/复旦/阿里提出Champ:人体视频生成新SOTA!CEO需知:解锁AI【人工智能】的9大关键问题出版一本书【七絕】趕集长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免Meta联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜Kimi爆火!网站一度宕机,“只需10分钟,接近任何领域初级专家水平”,公司:启动200万字长文本内测深入浅出LangChain与智能Agent:构建下一代AI助手Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。