Redian新闻
>
ICME 2022 | 通过定位语义块来加速图像分类

ICME 2022 | 通过定位语义块来加速图像分类

公众号新闻


©作者 | winycg
单位 | 中国科学院计算技术研究所
研究方向 | 计算机视觉


本次文章介绍我们于 ICME-2022 发表的一项通过定位语义块来加速图像分类的工作。


论文标题:

Localizing Semantic Patches for Accelerating Image Classification

论文链接:

https://arxiv.org/pdf/2206.03367.pdf

代码链接:

https://github.com/winycg/AnchorNet





引言


本文的动机在于输入图片中通常存在大量与类别无关的区域,尤其是像 ImageNet 这种高像素图像数据集。事实上,CNN 可以根据少量有类别判别性的 patch 做出正确的决策,总共有信息量的区域有时会远小于原始图像区域。


理想地,如果我们可以动态地定位类别相关的 patch 并且使用它们来高效推理,计算量可以被显著减少,但是没有准确率精度损失。因此主要的挑战就可以总结为怎样高效地找出重要性的区域。本文提出一个 patch 提出网络 AnchorNet,可以定位出语义 patch 进行下游分类。整体的流程图如图 1 所示:


▲ 图1. 动态推理流程图

为了满足加速推理的需要,上游的 AnchorNet 需要配备两个属性:


1. 它是一个十分轻量的网络,可以迅速捕捉到 patch 使用很少的代价;


2. 定位的 patch 应该能反映出类别判别性的特征。 


为了实现(2),本文利用一个经典的但是被广泛忽略的感受野 Receptive Field (RF) 映射规则,其可以准确地映射高层 spatial 点到输入图像的每一个 patch,如图 2 所示。通过得到类激活图 class activation map (CAM) [1],本方法可以准确地评估每一个 patch 的贡献,根据对应的 CAM 激活值。


▲ 图2. 高层spatial点到图像patch的映射

启发自 GFNet [2],本文使用一个序列的动态推理规则。每一步迭代,将一个 patch 送入到分类网络,如果基于 softmax 置信度大于规定阈值,则推理结束并输出最终预测,否则继续进行推理。




方法


2.1 特征对齐和感受野映射回顾

现代 CNN 通常逐步减少 spatial 像素数通过卷积操作直到全局池化层。卷积核大小和步长是影响卷积 网络感受野的重要超参数。中间层的 padding 操作通常会破坏具体的感受野映射规则。也就是说,没有 padding 的 CNN 可以提供准确的映射。

如图 2 所示,假设一个没有 padding 的 CNN 接受一个尺 寸为 的图像,并且该 CNN 具有 的感受野规模和 的步长在全局池化之前,将会得到  尺寸的输出特征图。
这里 分别代表高度和宽度。每一个高层点可以被映射到一个尺寸为 的patch。例如给定一个输入图像,尺寸为 ,CNN 具有 的感受野规模个 8 的步长,可以得到 的 spatial 点。
本文首先回顾累计感受野的计算规则。为了简化,假定卷积核大小和步长的高度和宽度是相等的。将累计感受野和步长从第一层到第 层分别表示为 。来自当前第 层的卷积核大小和步长分别表示为 。累计的感受野大小 和步长 直至当前的第 层被规则化为:

由于没有 padding 的设计,spatial 的映射从高层特征图到原始输入保证是准确的。


2.2 AnchorNet


▲ 图3. AnchorNet的整体示意图


AnchorNet 的整体结构展示自图 3。

本文开发了一个轻量级的 patch 提出网络,名为 AnchorNet,网络提供可解释性的 patch级别贡献同时自适应地定位有信息量的 patch。为了追求高效率,本文利用 MBConv 模块提出自 EfficientNet 作为元结构来堆叠特征提取器,同时所有的卷积层设置为 padding 0。本文接着利用一个 1x1 的卷积来扩展特征通道,并利用一个线性分类器进行学习。
启发自GFNet [2],本文构建的累计感受野尺寸为 。这意味着 AnchorNet 可以实现 patch 尺寸为 的 spatial 像素映射利用,通过高层 CAM 图的引导。因为累计的步长为 ,AnchorNet 可以映射尺寸为原始 图像为 个候选的 patch。就计算复杂度而言,AnchorNet 的 FLOPs 仅为 60MFLOPs,是 FLOPs 为 4089MFLOPs 的 ResNet-50 的 1.5%。

2.3 Patch定位算法


如图 3 所示,本文利用 CAM [1] 来评估 spatial 点对于最终预测的重要性。将全局池化之前的高层特征图表达为 ,其中 是第 个 spatial 激活图。线性分类器的权重张量是 ,其中 是类别数目, 表示第 行和第 列的值来自权重矩阵 。第 类的 CAM 图可以表达为:
每一个类别 CAM 上的 spatial 激活值代表了映射图像 patch 的重要性程度对于类别 来说。本文利用多个 patch 来覆盖类别判别性特征。但是简单地定位具有最大激活值的 patch 会导致严重的区域重叠。因此,本文提出一个简单有效的启发式 patch 选择方法,从而确保定位得到 patch 既具有语义性又能适当分离覆盖更多信息。
具体地,本文引入 loU 来量化两个 patch A 和 B 的交叉程度。本文将定位的 patch 集合命名为 ,根据激活值从大到小遍历 上的每一个 spatial 点。如果 loU 在当前访问的 patch 与任意在集合 中的 patch 的 loU 值小于阈值 ,则本方法将此 patch 放入集合 中。最终,本方法可以得到 patch 集合 作为最终的 patch 集合。

2.4 序列的推理框架


▲ 图4. 序列推理框架示意图
为了便于标识,本章节将 AnchorNet 表示为 ,下游分类网络表示为 。给定一张输入图像 ,整体的序列推理框架如图 4 所示。该框架可以被规则化为迭代地处理一个 patch 图像序列
受 RANet [3] 启发,ImageNet 中很大一部分图像可以通过简单的缩放依旧能分类正确。因此,本方法首先将原始 224×224 图像缩放为 ,表示为 。剩余的图像 patch 表示为 则被 AnchorNet 定位得到的。在第 步的动态推理,如果 softmax 置信度 大于预定义的阈值 ,序列的推理将会被终止,同时输出预测类别 。为了充分利用 patch 信息,推理过程被规则化为:

整体的推理过程如图 5 所示:


▲ 图5. 序列推理过程

2.5 训练策略


本文利用一个两阶段的训练机制来训练 AnchorNet 在阶段一,训练下游分类网络 在阶段二。
阶段一:给定一张输入图像 ,AnchorNet 输出 softmax 类别概率分布 。本方法利用标准的交叉熵 函数和真实标签来训练 AnchorNet
其中 是训练集, 是真实标签。
阶段二:给定输入图像 和预训练的 AnchorNet ,本方法可以自然地得到一个相关的图像 patch 序列 。本方法利用在原始 224x224 图像上训练的权重初始化网络 ,之后微调网络利用图像 patch ,通过标准的交叉熵函数:
其中 是预测的类别概率分布来自图像 。本方法训练两个网络 分别利用上述两个公式来分别预测缩放的图像 和定位的 patch


实验


3.1 实验设置


与 MSDNet [4] 相同的设置,本文基于 budgeted batch classification 和 anytime prediction 评估模型动态推理的性能。 


1. budgeted batch classification:此设置需要模型在具体的时间预算内完成测试集数据推理。本文通过调整不同退出口的置信度阈值来完成自适应的推理,对于不同的测试样例。


2. Anytime prediction:此设置需要模型在规定的时间预算内预测出每一个测试样例。本文使得所有测试样例从相同的退出点完成预测。


3.2 与现有动态推理方法的比较


本方法主要以 ResNet 和 DenseNet 作为下游分类网络进行实验,首先是在 budgeted batch classification 下的实验结果:


▲ 图6. budgeted batch classification设置下实验结果

在 anytime prediction 下的实验结果如下所示:


 图7. anytime prediction设置下的实验结果

AnchorNet+下游网络的组合一致地超越了先前的动态推理方法,凭借更少的计算量得到更高的分类准确率。


3.3 patch数量的影响


本文进一步研究了 patch 期望数量与准确率之间的关系,如图 8 所示。随着期望 patch 数量的上升,准确率同时提升。在图中,我们进一步采样了几个数据点并且展示了样本退出的分布。通过提升前期退出的置信度,更多的样本趋向于后期退出,从而准确率更高。


 图8. patch期望数量与准确率之间的关系

3.4 可视化定位的patch


 图9. ImageNet图像patch定位可视化结果

如图 9 所示,AnchorNet 可以自适应地定位到类别判别性的区域,可视化结果也表明使用语义的 patch 区域来进行下游分类时可行的。


参考文献

[1] Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2921-2929.

[2] Wang Y, Lv K, Huang R, et al. Glance and focus: a dynamic approach to reducing spatial redundancy in image classification[J]. Advances in Neural Information Processing Systems, 2020, 33: 2432-2444.

[3] Yang L, Han Y, Chen X, et al. Resolution adaptive networks for efficient inference[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 2369-2378.

[4] Huang G, Chen D, Li T, et al. Multi-scale dense networks for resource efficient image classification[J]. arXiv preprint arXiv:1703.09844, 2017.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AAAI2023 | 基于统一语义匹配的通用信息抽取框架-USM华人女科学家来加拿大开会失踪…亲友盼奇迹,正苦等签证来加年終碎想从局部到全局:语义相似度的测地线距离2022 USNEWS发布美国薪酬最高行业TOP25江泽民去世,一个时代的结束时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023【提示】2022年下半年度生活垃圾分类实效综合考评结果出炉FPGA加速图数据库查询执行ECCV 2022 | SegPGD: 能有效提升语义分割模型鲁棒性的对抗攻击方法在赫拉克利特的河里博后招募 | 新加坡南洋理工大学S-Lab招募遥感语义分割方向博后/高级工程师U-Net为什么会称霸医学图像分割?真正人人可用的RPA:实在智能全网首发IPA模式及智能屏幕语义理解技术​TPAMI 2022 | 跨特征图注意机制的小物体语义分割技术CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!Cut Children’s Access to Vulgar Memes: State Media Commentary【金融行业】明确分类标准,促进信托业务回归本源—简评《关于规范信托公司信托业务分类的通知》我”阳“了2022 湾区公立/私立高中 UCB 录取率排名CVPR 2022 | ELP:简单间断线性探针即可提升各种分类性能CVPR 2022|达摩院开源低成本大规模分类框架FFC迈入语义搜索领域,Graphcore拟未与Aleph Alpha扩大合作关系辣评-Weekly:北斗卫星日定位量超3000亿;俄版“星链”启动;美国联邦航空局预测商业发射活动激增;星链卫星加速无人机战发展吴晓波×张云:定位理论,仍在被重新定位 | 今日直播NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别NeurIPS 2022 | 生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别ICLR 2023 | 3D UX-Net:超强的医学图像分割新网络可能是国内最好的10位语文老师,联手出精读课了!动物农场、夏洛的网……499元精读12本[最新]华人女科学家来加拿大开会失踪,亲友盼奇迹,正苦等签证来加浅谈扩散模型的有分类器引导和无分类器引导全球CMOS图像传感器稳步增长香港内推 | 香港中文大学袁武老师招收计算机视觉/医学图像分析方向RA【智次方产业专访|定位篇】如何撬动近千亿的高精度室内定位市场?蓝牙AoA、UWB统统不是答案登顶对话式语义解析国际权威榜单SParC和CoSQL,全新多轮对话表格知识预训练模型STAR解读西政-得理杯“2023全国高校语义检索案例研究大赛”启动报名噢!卡撒布兰卡!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。