Redian新闻
>
MetaCLIP:带你揭秘CLIP数据

MetaCLIP:带你揭秘CLIP数据

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

最后一天!CVer学术星球最大优惠!限时送新用户50元优惠券(下方左图),老用户7折+20元续费券(下方右图),每天分享最新最优质的AI/CV内容,助力你的科研和工作!快加入!

自2021年诞生,CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据(WIT400M),而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究,但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。
CLIP原文仅有简短的数据处理描述,而后续工作依靠已经训练好的CLIP来重新过滤数据去训练CLIP(学生)模型。更广泛地说,虽然目前的开源着重强调已训练模型权重的公开,而训练数据以及如何从低质量数据获得高质量数据的技巧的公开度却往往并不那么高。
本文带你揭开CLIP的数据质量之谜,为开源社区带来元数据导向的CLIP预训练(MetaCLIP)。


  • 原文链接:https://arxiv.org/abs/2309.16671
  • 项目链接:https://github.com/facebookresearch/MetaCLIP
  • 论文标题:Demystifying CLIP Data
MetaCLIP数据质量
MetaCLIP根据CLIP原文对数据处理的描述,提出可扩展到整个CommonCrawl上的数据算法。该算法接受原始互联网数据分布,产生在元数据上平衡的高质量训练数据分布。
MetaCLIP产生的数据质量源自两个部分:
(1) 通过元数据字符串匹配来抓取高质量人类监督文本;
(2)通过平衡数据在元数据上的分布来最大限度保留长尾数据的信号、弱化噪声以及头部分布的冗余信息。MetaCLIP的元数据来自50万个WordNet和维基百科的视觉概念(visual concept),它们使被匹配的alt文本包含超越人类平均认知水平的监督质量(superhuman level supervision)。
我们的实验严格遵循CLIP设定来控制研究数据分布对结果的影响。整个数据提取,训练无需已训练CLIP来过滤数据以及潜在未知的来自OpenAI CLIP的数据偏见。
相反的是,MetaCLIP数据算法同时输出训练数据分布。这使得训练数据更加透明,以方便调试模型。MetaCLIP在400M训练数据上达到ViT-B 70.8%的零样本ImageNet分类精度;使用1B训练数据上达到72.4%;在2.5B训练数据上使用ViT-bigG模型达到82.1%,而整个模型和训练参数并未进行任何更改(比如学习率或批样本量)。

消融实验表明:字符串匹配(MetaCLIP w/o bal. (400M))和平衡分布(MetaCLIP(400M)) 对MetaCLIP的数据质量产生重大贡献。
CLIP数据算法介绍
本文正式提出CLIP数据算法,来简化和产生高质量的训练数据。
该方法大致分为:创建元数据,提出数据算法,提高数据质量及输出训练数据等四个步骤。
具体方法见下:
(1) 实现了CLIP数据的相关描述,包括如何创建元数据;
(2)提出如下数据算法:第一部分为元数据字符串匹配,第二部分为平衡数据分布。该算法简洁可扩展,本文已证明可在所有CommonCrawl 300+B 级图片样本并行运行;
(3)可植入已有数据流水线或者数据加载器(data loader)来提高数据质量;
(4)输出训练数据在元数据上的训练分布使得训练数据更透明。
该算法的python代码如下:

MetaCLIP的元数据来自WordNet和Wikipedia的高质量视觉概念(visual concept)。我们根据CLIP原文描述实现了从维基百科提取uni/bi-gram以及高频标题的过程。
相关选取的超参数如下:

元数据的创建来源
MetaCLIP算法简洁,可以将两部分分开植入已有的数据流水线。
如下图所示,该算法可以在数据流水线的早期进行植入,来减小数据规模和对计算资源存储的开销:
  • 第一部分(元数据字符串匹配)能减少50%的数据量;
  • 第二部分(平衡数据分布)能减少77%的数据量。

算法可轻松接入已有数据流水线,降低处理低质量数据的开销
下图展示了平衡数据分布的效果:横坐标将元数据里每个视觉概念的匹配数量从低到高排列,纵坐标累计匹配。
表格中展示了不同频率区段视觉概念的匹配数量:

平衡数据分布使得1.6B的原始数据被下采样成400M的训练数据。
我们可以看到MetaCLIP数据算法对头部分布进行了高度下采样,这将降低头部分布的冗余无效信息和头部数据的噪声(比如untitled photo),所有长尾分布的视觉概念全部保留。
实验结果
我们设计了两个数据池来运行数据算法。
  • 第一个池的目标是获得400M训练数据来和CLIP进行比较;
  • 第二个池的目标是所有CommonCrawl数据。
我们进一步对第二个数据池运行了两次数据算法,一次设定头尾分布的阈值(t=20k)与400M一致(最终获得1B数据),一次设定尾部分布的比例与400M尾部的比例一致(t=170k,最终获得2.5B数据)。
MetaCLIP在DataComp的38个任务上的实验结果如下:

我们可以看到MetaCLIP在400M上略好于OpenAI CLIP或者OpenCLIP。在第二个池上性能进一步超越400M。更多的数据在更大的模型ViT-bigG上产生更好的效果。而这些性能的提升完全来自数据而非模型结构改进或者训练技巧本身。
在CLIP/SLIP每个分类任务上的详细实验结果请参考原文。
实验结论
本文提出了CLIP的数据算法来产生高质量训练数据:算法可在所有CommonCrawl 的300+B 级图片样本对上并行运行。
实验表明元数据字符串匹配和平衡分布都对结果有重大贡献,算法无需使用CLIP模型过滤或者提高训练开销来提升性能,并且使得训练数据分布更加透明。
最后一天!CVer学术星球最大优惠!限时送新用户50元优惠券(下方左图),老用户7折+20元续费券(下方右图),每天分享最新最优质的AI/CV内容,助力你的科研和工作!快加入!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今年爆火的夏日穿搭cp:“衬衫+吊带+阔腿西裤”,热辣张扬,回头率200%!!EchoTikTikTokShop:2024全球服饰类目报告时髦精集合!养成孵化打造个人IP:这个时装设计师夏令营太秀了黎舒苇詩歌賞析《雨落黄昏》今年的performance review,你拿到满意的rating了吗?一线经理为你揭秘业绩考核机制「 云集 | 职挂云帆 」狗引儿【长篇】(二十八)Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。妹控、骨科与背德 CP:“正因我们是兄妹”WIETOP:2024阿尔法世代人群研究洞察数字原生一代报告-小学生篇微软全球资深副总裁张祺:揭秘Copilot智能副驾全家桶,一个人就能用AI创业扫码进群|《数据科学·机器学习求职实战营》正课免费体验!FLAG数据科学家带你科学准备DS面试!英格卡集团INGKAGROUP:2023财年年度总结和可持续发展报告Meta联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜会不会变Gap:lululemon即将迎来生死大考热烈推荐!医美界的巅峰之作-Amees Medical Spa的 UltraClear + 3D Miracl!ICLR 2024 | AnomalyCLIP:零样本异常检测新范式STEP数学笔试仅剩40多天开考!这些资料你都有了吗?如何迈出跨专业第一步?心理人前辈为你揭秘!|线下活动辛稼轩词 永遇乐 京口北固亭怀古PageGroup:2024中国大陆薪酬指南报告(198页)老烟记事(412) 带毛猪即插即用!上交提出Long-CLIP:解锁CLIP的长文本功能当代人理想副业TOP:治愈灵魂的指南者中国的GDP数字到底是多少?揭秘COVID-19新防线!Cell | 新研究确定了SARS-CoV-2及其变体的免疫逃避机制SAP:2024年HR趋势展望AI技术引领新时代PageGroup:2024中国大陆薪酬指南报告中英版[旅游] 红蓝自古是CP:全日空Blue Hangar Tour之旅回忆是一把遮雨的伞--过客(第二幕/微小说)精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!作为跨学科合作隐喻的K-pop:评迈克尔•富尔《韩国流行音乐》让人物动起来!南大/复旦/阿里提出Champ:人体视频生成新SOTA!Perplexity将Yelp数据引入其聊天机器人领克07 EM-P:牺牲部分利润扩大市场份额扫码进群|《数据科学·机器学习求职实战营》第1节正课免费体验!FLAG数据科学家带你科学准备DS面试!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。