国际科技财经博客移民网络热点娱乐民生时事公众号

>

Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜。

公众号新闻

2024-05-02 08:05

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

自2021年诞生，CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据（WIT400M），而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究，但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。

CLIP原文仅有简短的数据处理描述，而后续工作依靠已经训练好的CLIP来重新过滤数据去训练CLIP（学生）模型。更广泛地说，虽然目前的开源着重强调已训练模型权重的公开，而训练数据以及如何从低质量数据获得高质量数据的技巧的公开度却往往并不那么高。

本文带你揭开CLIP的数据质量之谜，为开源社区带来元数据导向的CLIP预训练（MetaCLIP)。

原文链接：https://arxiv.org/abs/2309.16671
项目链接：https://github.com/facebookresearch/MetaCLIP
论文标题：Demystifying CLIP Data

MetaCLIP数据质量

MetaCLIP根据CLIP原文对数据处理的描述，提出可扩展到整个CommonCrawl上的数据算法。该算法接受原始互联网数据分布，产生在元数据上平衡的高质量训练数据分布。

MetaCLIP产生的数据质量源自两个部分：

（1）通过元数据字符串匹配来抓取高质量人类监督文本；

（2）通过平衡数据在元数据上的分布来最大限度保留长尾数据的信号、弱化噪声以及头部分布的冗余信息。MetaCLIP的元数据来自50万个WordNet和维基百科的视觉概念（visual concept），它们使被匹配的alt文本包含超越人类平均认知水平的监督质量（superhuman level supervision）。

我们的实验严格遵循CLIP设定来控制研究数据分布对结果的影响。整个数据提取，训练无需已训练CLIP来过滤数据以及潜在未知的来自OpenAI CLIP的数据偏见。

相反的是，MetaCLIP数据算法同时输出训练数据分布。这使得训练数据更加透明，以方便调试模型。MetaCLIP在400M训练数据上达到ViT-B 70.8%的零样本ImageNet分类精度；使用1B训练数据上达到72.4%；在2.5B训练数据上使用ViT-bigG模型达到82.1%，而整个模型和训练参数并未进行任何更改（比如学习率或批样本量）。

消融实验表明：字符串匹配（MetaCLIP w/o bal. （400M)）和平衡分布（MetaCLIP（400M））对MetaCLIP的数据质量产生重大贡献。

CLIP数据算法介绍

本文正式提出CLIP数据算法，来简化和产生高质量的训练数据。

该方法大致分为：创建元数据，提出数据算法，提高数据质量及输出训练数据等四个步骤。

具体方法见下：

（1）实现了CLIP数据的相关描述，包括如何创建元数据；

（2）提出如下数据算法：第一部分为元数据字符串匹配，第二部分为平衡数据分布。该算法简洁可扩展，本文已证明可在所有CommonCrawl 300+B 级图片样本并行运行；

（3）可植入已有数据流水线或者数据加载器（data loader）来提高数据质量；

（4）输出训练数据在元数据上的训练分布使得训练数据更透明。

该算法的python代码如下：

MetaCLIP的元数据来自WordNet和Wikipedia的高质量视觉概念（visual concept）。我们根据CLIP原文描述实现了从维基百科提取uni/bi-gram以及高频标题的过程。

相关选取的超参数如下：

元数据的创建来源

MetaCLIP算法简洁，可以将两部分分开植入已有的数据流水线。

如下图所示，该算法可以在数据流水线的早期进行植入，来减小数据规模和对计算资源存储的开销：

第一部分（元数据字符串匹配）能减少50%的数据量；
第二部分（平衡数据分布）能减少77%的数据量。

算法可轻松接入已有数据流水线，降低处理低质量数据的开销

下图展示了平衡数据分布的效果：横坐标将元数据里每个视觉概念的匹配数量从低到高排列，纵坐标累计匹配。

表格中展示了不同频率区段视觉概念的匹配数量：

平衡数据分布使得1.6B的原始数据被下采样成400M的训练数据。

我们可以看到MetaCLIP数据算法对头部分布进行了高度下采样，这将降低头部分布的冗余无效信息和头部数据的噪声（比如untitled photo），所有长尾分布的视觉概念全部保留。

实验结果

我们设计了两个数据池来运行数据算法。

第一个池的目标是获得400M训练数据来和CLIP进行比较；
第二个池的目标是所有CommonCrawl数据。

我们进一步对第二个数据池运行了两次数据算法，一次设定头尾分布的阈值（t=20k）与400M一致（最终获得1B数据），一次设定尾部分布的比例与400M尾部的比例一致（t=170k，最终获得2.5B数据）。

MetaCLIP在DataComp的38个任务上的实验结果如下：

我们可以看到MetaCLIP在400M上略好于OpenAI CLIP或者OpenCLIP。在第二个池上性能进一步超越400M。更多的数据在更大的模型ViT-bigG上产生更好的效果。而这些性能的提升完全来自数据而非模型结构改进或者训练技巧本身。

在CLIP/SLIP每个分类任务上的详细实验结果请参考原文。

实验结论

本文提出了CLIP的数据算法来产生高质量训练数据：算法可在所有CommonCrawl 的300+B 级图片样本对上并行运行。

实验表明元数据字符串匹配和平衡分布都对结果有重大贡献，算法无需使用CLIP模型过滤或者提高训练开销来提升性能，并且使得训练数据分布更加透明。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

美到窒息！西雅图华盛顿大学樱花即将迎来盛放期~最佳观赏时间和攻略，春日限定樱花盛况不容错过！华盛顿大学圣路易斯分校招聘研究助理重磅：华盛顿大学醉人的樱花全面盛开；狮口夺人，女骑友勇救被美洲狮咬伤的朋友；天才华裔青年被违章驾车者撞死近波士顿大学高级公寓降价了！免中介费和一个月房租 | 波士顿大学租房突发：新法上路，西雅图40栋空置建筑可能被拆除；华盛顿州警方逮捕涉嫌枪杀22岁女子的三名青少年；华盛顿州共和党可能抛弃特朗普探索转型发展新路打造新质生产力，带你看山西高质量发展 I remember 西浦、利物浦大学提出：点云数据增强首个全面综述东南大学、蚂蚁提出MATEval：多Agent开放式文本评估框架华盛顿大学，在樱花环绕下学习（上） | 学校心理学/ABA/学习科学与人类发展/公共卫生硕博介绍突发：华盛顿大学多栋建筑遭严重涂鸦；达美航空飞机在西雅图起火，这次出事的不是波音飞机；金县警方截获有关墨西哥贩毒团伙单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight Offer到！50,000$奖学金！华盛顿大学圣路易斯分校录取捷报！ICLR 2024 Spotlight | 无惧中间步骤，MUSTARD可生成高质量数学推理数据祖屋六七十年代中国银幕帅气逼人的男演员廖有梁即插即用！上交提出Long-CLIP：解锁CLIP的长文本功能突发：华盛顿大学支持巴勒斯坦的示威者将解散营地；西雅图国际电影节奖颁了一个大奖给“弟弟”；华州火山会在我们有生之年再次爆发吗？MetaCLIP：带你揭秘CLIP数据祖屋 CVPR 2024 | 文本一键转3D数字人骨骼动画，阿尔伯塔大学提出MoMask框架【酷玩一日】华盛顿深度赏樱花纯玩游！春光灿烂不及华盛顿樱花三千~！突发：华盛顿州最受欢迎的婴儿名字居然是这两个！西雅图陆荣昌博物馆因员工抗议展览而关闭；华盛顿州巡警第4000次逮捕酒驾者突发：西雅图多车连环相撞导致5号公路大面积拥堵；华盛顿大学耗资6000万美元的篮球训练设施将动工；西雅图本周日将调至夏令时间靠Scaling Laws炼出4D版视频生成模型，多伦多大学北交大等携手开源81K高质量数据集突发：华盛顿大学内建起了“加沙大学”，内设图书馆、医疗帐篷，但无言论自由权；西雅图全城寻找失踪的斑马；你自以为是的程度是多少？“职场政治”话题汇 ACL2024：浙江大学提出大小模型协同的跨文档理解，低成本高表现乔治华盛顿大桥惊现攀爬者新泽西往纽约交通大堵塞乔治华盛顿大桥惊现攀爬者，新泽西往纽约交通大堵塞！Meta联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜谷歌重磅提出Med-Gemini ：医学大模型里程碑之作！医学航母正式起航！桥梁脆弱似基伊，全美至少7座！乔治华盛顿大桥在列华盛顿大学撰文反驳微软，我们无法删除大模型关于哈利波特的记忆突发：华盛顿州要立法给想变性的青少年的家长知情权，一些公民组织试图阻止；为保护濒危鸟类而削减一半风力发电机？华盛顿州州长否决

热点事件追踪