Redian新闻
>
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点

ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点

公众号新闻

机器之心专栏

机器之心编辑部

该工作是目前唯一实现了大规模高分辨率数据集蒸馏的框架


过去几年,数据压缩或蒸馏任务引起了人们的广泛关注。通过将大规模数据集压缩成具有代表性的紧凑子集,数据压缩方法有助于实现模型的快速训练和数据的高效存储,同时保留原始数据集中的重要信息。数据压缩在研究和应用中的重要性不可低估,因为它在处理大量数据的过程中起着关键作用。通过采用先进的算法,数据压缩取得了显著的进展。然而,现有解决方案主要擅长压缩低分辨率的小数据集,这种局限性是因为在双层优化过程中执行大量未展开的迭代会导致计算开销巨大。


MBZUAI 和 CMU 团队的最新工作 SRe2L 致力于解决这一问题。该工作是目前唯一实现了大规模高分辨率数据集蒸馏的框架,可以将 Imagenet-1K 原始的 1.2M 数据样本压缩到 0.05M (压缩比 1:20),使用常用的 224x224 分辨率进行蒸馏,在 ImageNet-1K 标准验证集(val set)上取得了目前最高的 60.8% Top-1 精度远超之前所有 SOTA 方法,如 TESLA (ICML’23) 的 27.9% 的精度。


该工作目前已完全开源,包括蒸馏后的数据,蒸馏过程和训练代码。


 

论文:https://arxiv.org/abs/2306.13092

代码:https://github.com/VILA-Lab/SRe2L


数据集蒸馏 / 压缩任务的定义和难点


传统的模型蒸馏是为了得到一个更加紧凑的模型,同时保证模型性能尽可能得高。与之不同,数据集蒸馏任务关注于如何得到一个更紧凑同时更具表达能力的压缩后的数据集,数据样本相比原始数据集会少很多(节省从头训练模型的计算开销),同时模型在该压缩后的数据集上训练,在原始数据验证集上测试依然可以得到较好的精度。


数据集蒸馏任务的主要难点在于如何设计一个生成算法来高效可行地生成需要的样本,生成的样本需要包含 / 保留原始数据集中核心的信息。目前比较常用的方法包括梯度匹配、特征匹配、轨迹匹配等等,但是这些方法的一个共同缺点就是没法 scale-up 到大规模数据集上。比如,由于计算量和 GPU 显存的限制,无法蒸馏标准的 ImageNet-1K 或者更大的数据集。计算量和 GPU 显存需要过大的主要原因在于这些方法生成过程需要匹配和保存的信息过多,目前很多 GPU 显存没法容纳所有需要匹配的数据信息,导致这些方法大多数只适用于较小的数据集。


针对这些问题,新论文通过解耦数据生成和模型训练两个步骤,提出了一个三阶段数据集蒸馏算法,蒸馏生成新数据过程只依赖于在原始数据集上预训练好的模型,极大地降低了计算量和显存需求。


解决方案核心思路


之前很多数据集蒸馏方法都是围绕样本生成和模型训练的双层优化 (bi-level optimization) 来展开,或者根据模型参数轨迹匹配 (trajectory matching) 来生成压缩后的数据。这些方法最大的局限在于可扩展性不是很强,需要的显存消耗和计算量都很大,没法很好地扩展到完整的 ImageNet-1K 或者更大的数据集上。


针对这些问题,本文作者提出了解耦数据生成和模型训练的方法,让原始数据信息提取过程和生成数据过程相互独立,这样既避开了更多的内存需求,同时也避免了如果同时处理原始数据和生成数据导致原始数据中的噪声对生成数据造成偏差 (bias)。


具体来说,本文提出了一种新的数据集压缩框架,称为挤压、恢复和重新标记 (SRe2L),如下图所示,该框架在训练过程中解耦模型和合成数据双层优化为两个独立的操作,从而可以处理不同规模的数据集、不同模型架构和高图像分辨率,以实现有效的数据集压缩目的。

 

本文提出的方法展示了在不同数据集规模的灵活性,并在多个方面表现出多种优势:1)合成图像的任意分辨率,2)高分辨率下的低训练成本和内存消耗,以及 3)扩展到任意评估网络结构的能力。本文在 Tiny-ImageNet 和 ImageNet-1K 数据集上进行了大量实验,并展示出非常优异的性能。


三阶段数据集蒸馏框架


本文提出一个三阶段数据集蒸馏的框架:


  • 第一步是将整个数据集的核心信息压缩进一个模型之中,通过模型参数来存储原始数据集中的信息,类似于我们通常进行的模型训练;

  • 第二步是将这些高度抽象化的信息从训练好的模型参数中恢复出来,本文讨论了多种不同损失和正则函数对于恢复后图像的质量以及对数据集蒸馏任务的影响;

  • 第三步也是提升最大的一步:对生成的数据进行类别标签重新校准。此处作者采用了 FKD 的方式,生成每个 crop 对应的 soft label,并作为数据集新的标签存储起来。


三阶段过程如下图所示:



性能及计算能效比


在 50 IPC 下 (每个类 50 张图),本文提出的方法在 Tiny-ImageNet 和 ImageNet-1K 上实现了目前最高的 42.5% 和 60.8% 的 Top-1 准确率,分别比之前最好方法高出 14.5% 和 32.9%。


此外,本文提出的方法在速度上也比 MTT 快大约 52 倍 (ConvNet-4) 和 16 倍 (ResNet-18),并且在数据合成过程中内存需求更少,相比 MTT 方法分别减少了 11.6 倍 (ConvNet-4) 和 6.4 倍 (ResNet-18),具体比较如下表所示:

 


实验结果


实验设置


该工作主要聚焦于大规模数据集蒸馏,因此选用了 ImageNet-Tiny 和 ImageNet-1K 两个相对较大的数据集进行实验。对于骨干网络,本文采用 ResNet-{18, 50, 101} 、ViT-Tiny 和自己构建的 BN-ViT-Tiny 作为目标模型结构。对于测试阶段,跟之前工作相同,文本通过从头开始训练模型来评估压缩后数据集的质量,并报告 ImageNet-Tiny 和 ImageNet-1K 原始验证集上的测试准确性。


在 full ImageNet-1K 数据集上的结果



可以看到,在相同 IPC 情况下,本文实验结果远超之前方法 TESLA。同时,对于该方法蒸馏得到的数据集,当模型结构越大,训练得到的精度越高,体现了很好的一致性和扩展能力。


下图是性能对比的可视化结果,可以看到:对于之前方法 TESLA 蒸馏得到的数据集,当模型越大,性能反而越低,这对于大规模数据集蒸馏是一个不好的情况。与之相反,本文提出的方法,模型越大,精度越高,更符合常理和实际应用需求。



压缩后的数据可视化

 

从上图可以看到,相比于 MTT 生成的数据(第一和第三行),本文生成的数据(第二和第四行)不管是质量、清晰度还是语义信息,都明显更高。


蒸馏过程图像生成动画


此外,包含 50、200 个 IPC(具有 4K 恢复预算)的压缩数据集文件可从以下链接获取:https://zeyuanyin.github.io/projects/SRe2L/


将该方法扩展到持续学习任务上的结果


 

上图展示了 5 步和 10 步的增量学习策略,将 200 个类别(Tiny-ImageNet)分为 5 个或 10 个学习步骤,每步分别容纳 40 个和 20 个类别。可以看到本文的结果明显优于基线(baseline)性能。


更多细节欢迎阅读其论文原文和代码。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
JCTC封面文章 | 深势科技Uni-Dock:支持极大规模数据库虚拟筛选的高性能对接引擎这是我们走向世界的关键一步!也可能是全球博弈的转折点GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了中美军事实力,为何面临重大转折点?(中)​钉钉公布全面智能化最新进展;Q1中国市场新能源轻型汽车销量133万辆;特斯拉大规模数据泄露事件影响逾7.5万人……财报前瞻丨​停滞不前的IBM能否迎来转折点?【经典重温】净息差的转折点——2023年中银行业与监管展望豆瓣9.1神片!奋斗、迷茫、坚持...高考只是命运的一个转折点,不是人生的终点人民币收复7.2重要关口!汇率关键转折点出现?【金融行业】净息差的转折点——2023年中银行业与监管展望【Top Of The World】cover the Carpenters; 夹带点私货:几张低光舞台音乐会照片这个世界上就有一些心眼儿特别不好的人!喜欢在乡下生活BigCode背后的大规模数据去重突发!3年来首次!英国本周现关键转折点,将影响上千万人的命运?如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍里斯本市政厅广场(Pra?a do Município),旅游打卡Lady GaGa "Hold My Hand"转折点事件!该国被​“永久改变”房市转折点已到!墨351地房价飙升,公寓租金暴涨45%!澳15%房价达新高!悉租金涨幅排行揭晓!你心目中的 TVB 港剧 top 1是哪部?安史之乱(4)中国史的千年转折点,李圣人的人生减法之旅(万字篇)咖啡市场转折点:宝座生变、中式咖啡加速5077 血壮山河之武汉会战 黄广战役 9重大发现:营养是鸡蛋的20倍,是牛奶的10倍,立秋后喝,增强免疫力!深度 | 这是我们走向世界的关键一步!也可能是全球博弈的转折点浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域丁辰灵:碧桂园暴雷,7月存贷双降,中美博弈9月是转折点Hélène Binet:光的哲学家丁辰灵:雷蒙多确定访华,中美博弈已到转折点,中国资产触底反弹。薪资翻了一倍!重要转折点,一个普通运营人的决定!中国科学院团队首篇LLM模型压缩综述:细聊剪枝、知识蒸馏、量化技术包在糖纸里的,不一定是糖果上海立芯董事长、复旦大学教授陈建利:超大规模数字电路布局布线EDA工具的机遇与挑战|国产EDA技术公开课预告AVS感知无损压缩标准概述——视觉无损质量等级视频浅压缩LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集今天第一次研究LAC,简化一下是不是大家这样认为的T5>T20=top 5 lac>T50=other lac?ICCV 2023 | 从蒸馏到自蒸馏:通用归一化损失与定制软标签====快转各种囤积真丝裙子+top====(建楼中)​中美军事实力,为何面临重大转折点?(上)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。