Redian新闻
>
何恺明团队新作FLIP:MAE助力CLIP更快更高精度!

何恺明团队新作FLIP:MAE助力CLIP更快更高精度!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:AIWalker

Scaling Language-Image Pre-training via Masking

论文:https://arxiv.org/abs/2212.00794

本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得我们可以在有限周期内学习到更多的image-text数据对,同时具有更少的内存占用。所提方案取得了更好的精度与训练时间均衡,相比无Mask基线方案,所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。

受益于加速训练能力,我们对扩展模型尺寸、数据集大小、训练周期进行了探索,同时取得了喜人的结果。

本文方案

上图为所提FLIP方案示意图,它由两部分构成:

  • Image Masking: 该采用ViT对图像进行编码,参考MAE对图像块进行大比例Mask丢弃(如50%、75%),这种处理方式还可以减少图像编码耗时与内存占用。关于MAE的介绍可参考《何恺明提出简单实用的自监督学习方案MAE,ImageNet-1K 87.8%》。
  • Text Masking:与此同时,我们还可以对text执行类似Image的Mask处理(可选想发)。当执行Mask时,我们仅对可见token进行编码处理。这不同于BERT的处理机制:采用Learned Mask Token进行替换。这种稀疏计算同样可以一定程度减少文本编码耗时。不过,由于文本编码器比较小,这里的加速不会导致更好的均衡。
  • Objective:Image/Text编码器采用对比损失进行训练优化。在这里,作者并未像MAE那样使用重建损失。丢弃解码器与重建损失取得了进一步的加速。
  • Unmasking:尽管编码器是在Masked图像上进行的预训练,但它可以像MAE那样直接作用到无干扰的图像,此可作为对标的基线。为进一步减少因Mask导致的分布差异,作者将Mask比例设为0并进行少量的连续预训练。这种处理机制可以取得有利的精度/耗时均衡。

具体实现

在实现方面,作者参考CLIP与OpenCLIP并进行了以下几点改动:

  • 图像编码器采用的是ViT,但在Patch Embedding后并未使用额外的LayerNorm,此外在图像编码尾部添加了GAP。图像输入尺寸为224.
  • 本文编码器为Non-AutoRegressive Transformer,作者采用了WordPiece序列化方案。序列长度通过pad或cut固定为32。
  • 图像编码器与文本编码器的输出投影到相同的嵌入空间,然后经LTP(Learnable Temperature Parameter)缩放后计算两者的Cosine相似性。
  • 采用JAX实现,在TPUv3集成进行训练。

本文实验

消融实验结果对比如下:

ImageNet1K数据集上结果对比如下:

更多分类数据集上的结果对比如下:

更多消融实验与实验结果请查看原文,为避免误导各位大佬,这里直接略过。

点击进入—> CV 微信技术交流群


FLIP 论文PDF下载


后台回复:FLIP,即可下载上面论文


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
打好高尔夫,纠正八误区潘建伟团队新成果登Science,被称“超冷分子领域里程碑”,为模拟量子三体问题铺路NeurIPS22|改进何恺明 MAE!GreenMIM:整合Swin与MAE,训练速度大幅提升!丰田打造氢燃料动力Corolla Cross 汽车首个千亿模型压缩算法 SparseGPT 来了,降低算力成本的同时保持高精度高精定位和高精地图进入发展黄金期,这些厂商有望成为车厂首选卢冠达团队新文:精确控制哺乳动物细胞的合成基因控制系统Rosalía 登意大利版《VOGUE》封面!​福建:坚定信心稳中有进 高质量发展迈出更快更稳步伐突然清仓!松露巧克力COSTCO清仓了,还有花旗参、新秀丽、Strivectin都有新特价浣溪沙:九月河中归雁游AIGC 潮流下,高精度 3D 内容生成如何工业化?观夏合作First青年导演柴小雨;亚马逊将于11.24开启黑五;茅台冰淇淋方便食品商标被驳回... | 刀法品牌热讯Steam喜加一!《双人成行》团队新作TGA上公开!基建游戏特卖要来了!「德普数控」完成种子轮融资,加速实现高精度五轴机床自主国产化|36氪首发寻找穿越周期的力量|36氪《WISE2022最具潜力CFO36人》招募The west integrated China into the world超越CLIP!谷歌大脑多模态学习新作CLIPPO:仅从像素理解图像和语言面试官:MySQL中的 distinct 和 group by 哪个效率更高?习近平的不忘初心与中国的未来黑白花卉 II高精度地图成智能汽车必争之地「德普数控」完成种子轮融资,加速实现高精度五轴机床自主国产化|早起看早期NeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!RedCap如何“引爆”5G高精度定位市场?NeurIPS 2022 | DetCLIP:开放域检测新方法,推理效率提升20倍!新版TensorFlow又立flag!官方团队明确「四大支柱」:承诺100%向后兼容,2023年发布石墨炔助力C-N偶联合成尿素:高选择性、高效率 | NSR比Vlookup更逆天!这个强大的查询函数,看完我就跪了!圣诞大清仓!世界名酒心巧克力COSTCO开始大清仓,这些零食坚果备年货真体面!本周西人超市Flyer:Metro、Food Basics、Freshco...更快更强!EfficientFormerV2来了!一种新的轻量级视觉Transformer高精度压缩Transformer,NNI剪枝一站式指南NeurIPS 2022 | ConvMAE:当Masked卷积遇见何恺明的MAE北斗已为国内21款智能汽车提供高精度定位服务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。