Redian新闻
>
一个项目帮你了解数据集蒸馏Dataset Distillation

一个项目帮你了解数据集蒸馏Dataset Distillation

公众号新闻

机器之心专栏

机器之心编辑部

近期由北海道大学的 Dr. Guang Li,爱丁堡大学的 Dr. Bo Zhao 和 MIT 的 Dr. Tongzhou Wang 共同发起的数据集蒸馏项目总结了数据集蒸馏领域所有优秀论文以及开源代码。

数据集蒸馏研究简介


数据集蒸馏是合成小数据集的任务,以便在其上训练的模型在原始大数据集上实现高性能。数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证 / 测试集)上在该蒸馏数据集上训练的测试模型进行评估。


数据集蒸馏问题设定


这项任务最初是在 Dr. Tongzhou Wang 2018 年的论文 Dataset Distillation [1] 中介绍的,改论文同时提出了通过优化步骤使用反向传播的算法。由于最初算法的局限性,当时仅仅可以在一些简单数据集如 MNIST,CIFAR-10 上进行蒸馏操作且准确率比较低。这也是最初的 Dataset Distillation 没有被一些 AI 顶会 (NeurIPS/ICCV/ICLR) 收录的原因。


最初的数据集蒸馏效果


一个好的小型蒸馏数据集不仅对数据集理解有用,而且具有各种应用(例如,隐私保护,持续学习,神经架构搜索等)。其中,Dr. Guang Li 最先将数据集蒸馏应用于医学图像领域,并对其在隐私保护方面的特性做了探索,该研究通过将十几万张胃部 X 光图像蒸馏到只有 3 张并达到了很好的胃炎检测效果,研究成果发表于 ICIP 2020 [2].


匿名化的胃部 X 光蒸馏图像


2021 年后,数据集蒸馏在研究界、许多研究所和实验室中越来越受到关注。现在每年都有更多的论文发表。这些精彩的研究一直在不断改进数据集蒸馏并探索其各种变体和应用。其中最具有突破性的研究之一是由 Dr. Bo Zhao 在 ICLR 2021 中提出的 Dataset Condensation,该论文首次提出通过梯度匹配策略来蒸馏数据集并大大提升了测试准确率以及泛化能力 [3].



基于梯度匹配的数据集缩合算法


最近由 CMU,MIT,UC Berkeley 的学者们发表的一篇论文首次实现了对 ImageNet 的蒸馏并又一次大幅提升了蒸馏数据集的测试效果, 该成果发表于 CVPR 2022 [4]。


ImageNet 上的蒸馏效果


对于目前数据集蒸馏领域的巨大进展 Dr. Tongzhou Wang 表示非常惊喜并在推特上对 Awesome-Dataset-Distillation 项目进行了介绍。

   

Dr. Tongzhou Wang 在推特上对数据集蒸馏项目的介绍


在 Awesome-Dataset-Distillation 项目完成后,短短一个月的时间在 GitHub 上已经获得了 300Star,受到了国内外很多知名学者的关注。此外,上个月被外媒选为八月份最受关注的 AI 研究之一。


  • 数据集蒸馏的项目地址:https://github.com/Guang000/Awesome-Dataset-Distillation

  • Dr. Guang Li (Hokkaido University) :https://www-lmd.ist.hokudai.ac.jp/member/guang-li/

  • Dr. Bo Zhao (The University of Edinburgh):https://bozhaonanjing.wixsite.com/mysite

  • Dr. Tongzhou Wang (MIT):https://www.tongzhouwang.info/


[1] Wang, Tongzhou, et al. "Dataset distillation." arXiv preprint arXiv:1811.10959.

[2] Li, Guang, et al. "Soft-label anonymous gastric x-ray image distillation." ICIP 2020.

[3] Zhao, Bo, et al. "Dataset Condensation with Gradient Matching." ICLR 2021.

[4] Cazenavette, George, et al. "Dataset distillation by matching training trajectories." CVPR 2022.


声纹识别:从理论到编程实战

《声纹识别:从理论到编程实战》中文课上线,由谷歌声纹团队负责人王泉博士主讲。目前,课程答疑正在持续更新中。
课程视频内容共 12 小时,着重介绍基于深度学习的声纹识别系统,包括大量学术界与产业界的最新研究成果。
同时课程配有 32 次课后测验、10 次编程练习、10 次大作业,确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。
点击阅读原文,了解更多课程内容。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【重磅】ARCFE 旗下多个项目 I-956F 收据到位,I-526E 开始递件!覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec​能让天津人放下煎饼馃子的,也就那碗捞(láo)面了!地产时代落幕前,一个项目总经理的最后几年 | 人间COLING 2022 | CSL-大规模中文科学文献数据集Dinosaur Demise Started Millennia Before Asteroid Crash: Study【开心时刻】文学城里一道靓丽的风景线(图· 歌)萨省企业家移民,无需雅思的加拿大创投项目你了解吗?NeurIPS 2022|知识蒸馏想要获得更好的性能?那就来一个更强的教师模型吧!EEGLAB系列教程2:在 EEGLAB 中管理数据集字节跳动开源BitSail:重构数据集成引擎,走向云原生化、实时化Serverless时代已经全面到来:冷启动时间降低90%,数据分析All on ServerlessAt Least 19 Chinese Women Accuse Ex-Tutor of Sexual Harassment【免中介费,1月入住两室公寓,近BU/BC,欢迎本科生入住】Allston地区Allston St.|无忧精选公寓楼“蓉漂杯”签约项目进展如何?——成都科创投集团投资5个项目集中落地A Japanese Man’s 30-Year Quest to Green a Chinese Desert理解数据可用性采样干货来了!近7分多数据集联合分析文章复现!真滴香!【出租!Allston地区Gardner St.|无忧精选公寓楼】免中介费!近BU、地铁绿线、Allston商店街,即刻入住!​达摩院文档级关系抽取新数据集和五元组抽取新任务15个问题帮你了解党的二十大!CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集你知道这些Attack(发作)吗?一文带你了解BPHO senior难度、平均分、获奖率!11/30 波士顿新闻汇总|南波士顿家中发现4具婴儿尸体 ​同性婚姻法案获参议院通过 妇女医院新项目帮助新生儿过渡回家MMDialog: 微软&北大发布首个百万量级多模态开放域多轮对话数据集3个案例,详解数据分类分级方法论及落地应用NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链​语言偏见不是唯一的捷径:视觉问答的捷径学习数据集手指按住闪光灯,普通手机也能测血氧!华盛顿大学等开源新数据集,监测数值范围大于现有方法博士答辩的一些趣事现在的中国就是现在的中国政府超越BEiT-3!谷歌提出多模态大模型PaLI:刷新多个数据集SOTA!大脑如何驾驭我们说双语或多语(ZT)一文带你了解BPHO senior challenge难度、平均分、获奖率!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。