ICME 2022 | 通过定位语义块来加速图像分类
本次文章介绍我们于 ICME-2022 发表的一项通过定位语义块来加速图像分类的工作。
论文标题:
Localizing Semantic Patches for Accelerating Image Classification
https://arxiv.org/pdf/2206.03367.pdf
https://github.com/winycg/AnchorNet
引言
本文的动机在于输入图片中通常存在大量与类别无关的区域,尤其是像 ImageNet 这种高像素图像数据集。事实上,CNN 可以根据少量有类别判别性的 patch 做出正确的决策,总共有信息量的区域有时会远小于原始图像区域。
理想地,如果我们可以动态地定位类别相关的 patch 并且使用它们来高效推理,计算量可以被显著减少,但是没有准确率精度损失。因此主要的挑战就可以总结为怎样高效地找出重要性的区域。本文提出一个 patch 提出网络 AnchorNet,可以定位出语义 patch 进行下游分类。整体的流程图如图 1 所示:
▲ 图1. 动态推理流程图
为了满足加速推理的需要,上游的 AnchorNet 需要配备两个属性:
1. 它是一个十分轻量的网络,可以迅速捕捉到 patch 使用很少的代价;
2. 定位的 patch 应该能反映出类别判别性的特征。
为了实现(2),本文利用一个经典的但是被广泛忽略的感受野 Receptive Field (RF) 映射规则,其可以准确地映射高层 spatial 点到输入图像的每一个 patch,如图 2 所示。通过得到类激活图 class activation map (CAM) [1],本方法可以准确地评估每一个 patch 的贡献,根据对应的 CAM 激活值。
启发自 GFNet [2],本文使用一个序列的动态推理规则。每一步迭代,将一个 patch 送入到分类网络,如果基于 softmax 置信度大于规定阈值,则推理结束并输出最终预测,否则继续进行推理。
方法
现代 CNN 通常逐步减少 spatial 像素数通过卷积操作直到全局池化层。卷积核大小和步长是影响卷积 网络感受野的重要超参数。中间层的 padding 操作通常会破坏具体的感受野映射规则。也就是说,没有 padding 的 CNN 可以提供准确的映射。
由于没有 padding 的设计,spatial 的映射从高层特征图到原始输入保证是准确的。
▲ 图3. AnchorNet的整体示意图
AnchorNet 的整体结构展示自图 3。
2.3 Patch定位算法
2.4 序列的推理框架
整体的推理过程如图 5 所示:
2.5 训练策略
实验
3.1 实验设置
与 MSDNet [4] 相同的设置,本文基于 budgeted batch classification 和 anytime prediction 评估模型动态推理的性能。
1. budgeted batch classification:此设置需要模型在具体的时间预算内完成测试集数据推理。本文通过调整不同退出口的置信度阈值来完成自适应的推理,对于不同的测试样例。
2. Anytime prediction:此设置需要模型在规定的时间预算内预测出每一个测试样例。本文使得所有测试样例从相同的退出点完成预测。
3.2 与现有动态推理方法的比较
本方法主要以 ResNet 和 DenseNet 作为下游分类网络进行实验,首先是在 budgeted batch classification 下的实验结果:
在 anytime prediction 下的实验结果如下所示:
AnchorNet+下游网络的组合一致地超越了先前的动态推理方法,凭借更少的计算量得到更高的分类准确率。
3.3 patch数量的影响
本文进一步研究了 patch 期望数量与准确率之间的关系,如图 8 所示。随着期望 patch 数量的上升,准确率同时提升。在图中,我们进一步采样了几个数据点并且展示了样本退出的分布。通过提升前期退出的置信度,更多的样本趋向于后期退出,从而准确率更高。
3.4 可视化定位的patch
如图 9 所示,AnchorNet 可以自适应地定位到类别判别性的区域,可视化结果也表明使用语义的 patch 区域来进行下游分类时可行的。
参考文献
[1] Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2921-2929.
[2] Wang Y, Lv K, Huang R, et al. Glance and focus: a dynamic approach to reducing spatial redundancy in image classification[J]. Advances in Neural Information Processing Systems, 2020, 33: 2432-2444.
[3] Yang L, Han Y, Chen X, et al. Resolution adaptive networks for efficient inference[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 2369-2378.
[4] Huang G, Chen D, Li T, et al. Multi-scale dense networks for resource efficient image classification[J]. arXiv preprint arXiv:1703.09844, 2017.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者