Redian新闻
>
三行代码解决长尾不平衡类别分类!间隔校准算法Margin Calibration来了!

三行代码解决长尾不平衡类别分类!间隔校准算法Margin Calibration来了!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群


本文转载自:王晋东不在家

长尾视觉识别任务对神经网络如何处理头部(常见)和尾部(罕见)类之间的不平衡预测提出了巨大挑战。模型倾向于将尾部类分类为头部类。虽然现有的研究侧重于数据重采样和损失函数工程,但在本文中,我们采用了不同的视角:分类间隔。我们研究了间隔(margin)和预测分数(logit)之间的关系,并凭经验观察到「未校准的边距和预测分数呈正相关」。我们提出了一种「简单而有效的边距校准方法 (Margin Calibration,MARC) 来校准边距以获得更平衡的预测分数」,从而提升分类性能。我们通过对常见长尾基准(包括 CIFAR-LT、ImageNet-LT、Places-LT 和 iNaturalist-LT)的广泛实验来验证MARC。实验结果表明,我们的MARC方法在这些基准上取得了良好的结果。此外,「只需三行代码」 就能实现MARC。我们希望这种简单的方法能够激发人们重新思考长尾视觉识别中未校准的边距与预测分数之间的关系。

文章已被机器学习会议ACML 2022录用, 由东京工业大学、微软STCA、南京大学、及微软亚洲研究院共同完成,第一作者为东京工业大学王一栋同学。

论文:https://arxiv.org/abs/2112.07225

间隔与预测分数的关系

在本文中,我们研究了 「间隔(Margin)」「预测分数 (logits)」 之间的关系,这是主导长尾绩效的关键因素。

如下图所示,我们凭经验发现边距和预测分数与每个类的基数相关(一个类的基数即该类别拥有数据的数量)。具体来说,在校准之前,头类往往比尾类具有更大的边距和预测分数。因此,需要校准这种不平衡的边距以获得平衡的预测分数去避免未校准的边距对分类性能产生负面影响。

间隔校准方法MARC: Margin Calibration

我们提出一个简单的间隔校准方法 「MARC (margin calibration)」 来解决长尾问题。

具体而言,我们训练了一个简单的特定于类别的边距校准模型,其中原始边距固定,是可学习参数:

的推理公式如下,最终是由预测分数(logit=)除以线性分类器(Linear Classifier Head)的权重(Weight)的模()取得,其中为线性分类器的偏差(bias):

因此,校准后的预测分数为

其中是固定的原始预测分数。

此外,我们还对不同类进行加权操作,最终通过训练来获得更平衡的预测分数。

核心算法:仅需三行代码

MARC可以被分类为决策边界(间隔)调整算法,其与之前的一些同类算法如Decouple (ICLR'20, 评论区提到的)和DisAlign等的区别如下:

MARC的核心算法如下图所示,核心部分如红框所示。「仅需三行代码」 即可实现MARC:

实验

分类结果

实验表格如下。我们在众多被广泛使用的长尾分类图像数据集中进行了对比。从实验结果可以看出MARC相比于其他方法取得了良好的性能,并且MARC十分容易实现。


复杂度

下图是MARC和另一个决策边界调整算法Dis-Align的对比试验,可以发现MARC取得了更平衡的边距和预测分数。

总结

本文研究了长尾视觉识别问题。具体来说,我们发现头类往往比尾类具有更大的边距和预测分数。受此发现的启发,我们提出了一个只有 2K(K是类别数)可学习参数的边距校准函数,以获得长尾视觉识别中的平衡预测分数。尽管我们的方法实现起来非常简单,但大量实验表明,与以前的方法相比,MARC在不改变模型表示的情况下取得了有利的结果。我们希望我们对预测分数和边距的研究能够为模型表示和边距校准的联合优化提供经验。未来,我们的目标是发展一个统一的理论来更好地支持我们的算法设计,并将该算法应用于更多的长尾应用。

Reference

[1] 本文所介绍的论文:Wang et al. Margin calibration for long-tailed visual recognition. Asian Conference on Machine Learning (ACML) 2022.

点击进入—> CV 微信技术交流群


CVPR/ECCV 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
加 3 行代码减少 80% 构建时间澳洲移民局公布移民优先审批职业和类别!境外优先,医护、教师等类别优先!NeurIPS 2022 | 首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准海湾百货与太平洋铁路PyTorch 2.0来了!100%向后兼容,一行代码将训练提速76%!浅谈扩散模型的有分类器引导和无分类器引导重写 50 万行代码,从 0 自研的云原生 HSTAP 能否成为数据库的未来?| Q推荐孤女命运被董建华他爸的一句话改变涉及疫苗组合、时间间隔、接种禁忌等内容,加强老年人疫苗接种工作方案来了仅花200行代码,如何将60万行的RocksDB改造成协程0行代码拿210万年薪,ChatGPT催生新型「程序员」岗:工作纯靠和AI聊天平价买到高级感!IKEA全新 OBEGRÄNSAD系列,全系列都好看!人体的最佳运动时间宏景智驾校招:图像算法工程师、决策规划算法工程师、SLAM建图算法工程师等为什么澳洲的留学生都那么有钱啊?我心里不平衡。。。3行代码建模,训练速度提升200%?这款时序开源神器PaddleTS太强了!硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级22年DesignerCon来咯!泡泡玛特限量brick bear就在下周安娜汉姆!赶紧买票手慢无Acciona Energía 收购德州最大的电池储能项目读懂HikariCP一百行代码,多线程就是个孙子!韩国大厂Nexon的元宇宙Nexon Town来了,有何特殊之处?分类模型:类别不均衡问题之loss设计CCF论文列表(2022拟定)大更新!MICCAI空降B类!PRCV空降C类!ICLR继续陪跑...【友情转发】MITCSSA年度巨献|一行代码,告别光棍节网站都变成灰色,几行代码就搞定了!瞧不上 C++ 和 D 语言,国外程序员将 5.8 万行代码迁移到 Jai 语言,到底图什么?几行代码就能价值千万美金?丨1024程序员节一行代码12倍加速Bert推理,OpenAI编程语言加持的引擎火了在北京,几行代码实现看房自由!IKEA x OBEGRÄNSAD联名!宜家22年最受瞩目系列开售!触摸美国 52 硅谷买房毛泽东对三线建设的总构想方针PyTorch 2.0 来了!100% 向后兼容,一行代码将训练提速 76%AIGC落地门槛被打下来了:硬件预算一口气降至1/46,低成本上手Stable Diffusion2.0,一行代码自动并行Rosalía 登意大利版《VOGUE》封面!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。