Redian新闻
>
CVPR 2023 | 何恺明团队开源FLIP:MAE助力CLIP更快更高精度!

CVPR 2023 | 何恺明团队开源FLIP:MAE助力CLIP更快更高精度!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:AIWalker

特别说明:FLIP 这篇论文首发在2022年12月初(CVer也第一时间报道了),然后在2023年3月30日更新了第二版(更新了scaling实验结果),而且放出了项目链接

FLIP论文收录CVPR 2023,代码也开源了!这应该也是全网最新最快的后续报道,希望对你有一点点帮助。

其中实验部分,Amusi 发现改动最大的地方应该是下图红框里的joint scaling数据:

第一版论文中的表8数据


第二版(最新)论文中的表8数据

Scaling Language-Image Pre-training via Masking

代码(已开源):

https://github.com/facebookresearch/flip

论文:https://arxiv.org/abs/2212.00794

本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得我们可以在有限周期内学习到更多的image-text数据对,同时具有更少的内存占用。所提方案取得了更好的精度与训练时间均衡,相比无Mask基线方案,所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。

受益于加速训练能力,我们对扩展模型尺寸、数据集大小、训练周期进行了探索,同时取得了喜人的结果。

本文方案

上图为所提FLIP方案示意图,它由两部分构成:

  • Image Masking: 该采用ViT对图像进行编码,参考MAE对图像块进行大比例Mask丢弃(如50%、75%),这种处理方式还可以减少图像编码耗时与内存占用。关于MAE的介绍可参考《何恺明提出简单实用的自监督学习方案MAE,ImageNet-1K 87.8%》。
  • Text Masking:与此同时,我们还可以对text执行类似Image的Mask处理(可选想发)。当执行Mask时,我们仅对可见token进行编码处理。这不同于BERT的处理机制:采用Learned Mask Token进行替换。这种稀疏计算同样可以一定程度减少文本编码耗时。不过,由于文本编码器比较小,这里的加速不会导致更好的均衡。
  • Objective:Image/Text编码器采用对比损失进行训练优化。在这里,作者并未像MAE那样使用重建损失。丢弃解码器与重建损失取得了进一步的加速。
  • Unmasking:尽管编码器是在Masked图像上进行的预训练,但它可以像MAE那样直接作用到无干扰的图像,此可作为对标的基线。为进一步减少因Mask导致的分布差异,作者将Mask比例设为0并进行少量的连续预训练。这种处理机制可以取得有利的精度/耗时均衡。

具体实现

在实现方面,作者参考CLIP与OpenCLIP并进行了以下几点改动:

  • 图像编码器采用的是ViT,但在Patch Embedding后并未使用额外的LayerNorm,此外在图像编码尾部添加了GAP。图像输入尺寸为224.
  • 本文编码器为Non-AutoRegressive Transformer,作者采用了WordPiece序列化方案。序列长度通过pad或cut固定为32。
  • 图像编码器与文本编码器的输出投影到相同的嵌入空间,然后经LTP(Learnable Temperature Parameter)缩放后计算两者的Cosine相似性。
  • 采用JAX实现,在TPUv3集成进行训练。

本文实验

ImageNet1K数据集上结果对比如下:

FLIP的Scaling性能结果:

在更多分类、图像/文本检索、鲁棒性评估、图像描述和VQA数据集上的结果对比如下:

消融实验结果对比如下:

更多细节与实验结果,请查看原文进行消化。

点击进入—>【计算机视觉】微信技术交流群


FLIP 论文PDF和代码下载


后台回复:FLIP,即可下载上面论文和代码


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI新生成模型开源炸场!比Diffusion更快更强,清华校友宋飏一作UCSD、MIT等华人团队教机器狗感知3D世界!搭M1芯片,爬楼跨障无所不能|CVPR 2023CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D几道减肥瘦身健康美食CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割何恺明 MIT 最新演讲:未来工作将聚焦 AI for scienceCVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模CVPR 2023 | 开源了!一种通用的视频闪烁去除方法CVPR 2023 | 港中大&IDEA开源首个大规模全场景人体数据集Human-Art爱上一个人需要多少时间?肖战能火向世界,是因为他身上,有让人欣赏的4种魅力何恺明被曝回归学术界!网友:要成为MIT引用最高的人了...CVPR 2023 | 北大提出UniDexGrasp:通用灵巧手抓取算法上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023Eruope 2023CVPR 2023 | 南大王利民团队提出LinK:用线性核实现3D激光雷达感知任务中的large kernel比快更快|华为MateBook X Pro 2023挑战狂飙超跑、吉尼斯魔方大神CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA“打包”BERT,Graphcore助力Pienso大语言模型更高效传奇大神何恺明被曝回归学界,网友:要成全MIT引用最高的人了CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集2023 春 祝姐妹们周末快乐!CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测CVPR 2023 | 基于CLIP的微调新范式!训练速度和性能均创新高!CVPR 2023 | 浙大提出全归一化流模型PyramidFlow:高分辨率缺陷异常定位新范式44岁黄海波罕见露面,退居幕后教演员,妻子靠《狂飙》赚钱养家在 Vue3 这样子写页面更快更高效何恺明被曝回归学界!面试MIT教职,大型DL追星现场来了国际要闻简报,轻松了解天下事(03微信视觉团队斩获CVPR 2023视频相似性大赛双赛道冠军!歌剧《野火春风斗古城》选段杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023转:2023 回国探亲(5)炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!何恺明MIT求职演讲现场:提前三小时就有排队,超百页PPT回顾CV发展,以及“大神月半了”CVPR 2023 | 谷歌提出CLIPPO:仅从像素理解图像和语言今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。