扫码加入CVer学术星球,可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!
转载自:APRIL机器人智能感知与学习
题目:Omni-frequency Channel-selection Representations for Unsupervised Anomaly Detection代码:https://github.com/zhangzjn/OCR-GAN论文:https://ieeexplore.ieee.org/abstract/document/10192551
近年来,无监督异常检测任务逐渐受到大家关注,其中基于密度和分类的方法在无监督异常检测中占据主导地位,而基于重构的方法由于重构能力差、性能不高而很少被提及,但后者不需要额外花费大量的训练样本进行无监督训练,具有更大的实用价值。本文着重改进基于重构的方法,从频率的角度处理感知异常检测任务(sensory anomaly detection),提出了一种新的全频率通道选择重构网络(Omni-frequency Channel-selection Reconstruction,OCR-GAN)。实验结果证明了提出方法的有效性和优越性,例如,在没有额外训练数据的情况下(不使用预训练模型或者其他数据集,即模型train from scratch),在MVTec AD数据集上实现了新的最先进的98.3检测AUC,显著地比基于重建的基线高+38.1↑,比SOTA高 +0.3↑。异常检测是视觉图像理解中的一项重要的二分类任务,用于区分给定图像是否偏离预定义的正常分布,在现实世界中有各种应用,例如新颖性检测、工业产品质量监控、缺陷修复等。现实应用中,异常检测任务可以分为感知异常检测(Sensory Anomaly Detection,见图1左图)和语义异常检测(Semantic Anomaly Detection,见图1右图)两大类,前者只存在协变量偏差而不存在语义偏差(常用MVTec AD[1]、DAGM[2]、KolektorSDD[3]等数据集),而后者则相反(常用CIFAR-10[4]数据集)。异常检测任务中获取异常样本耗时且成本较高,这驱动我们开展更实用的无监督AD方法研究。目前的无监督异常检测方法主要分为三类,如图2所示。
1)Density-based方法:基于密度的方法通常采用预训练的模型来提取输入图像的有意义嵌入向量,测试图像时通过计算嵌入表示与参考表示分布之间的相似度以得到异常分数。这种方法在MVTec AD等数据集上取得了较高的指标分数,但需要预训练模型加持且可解释性不足。
2)Classification-based方法:基于分类的方法试图找到正常/异常数据的分类边界,一般使用代理任务训练的模型来检测异常,因此该类方法依赖于代理任务与测试数据的匹配程度,且需要预训练模型和额外的训练数据。
3)Reconstruction-based方法:基于重构的方法包含一个用于重构输入图像的生成器结构,异常分数可解释为重构误差。这类方法不需要预训练的模型和额外的训练数据,但目前该类方法相较于其他方法表达能力略有差距。
本文重点研究基于重构的方法,期望增强生成器的重构能力以提升模型的异常检测能力。图2 无监督异常检测方法pipeline对比对于一幅图像,不同的频段包含不同类型的信息,例如低频代表更多的语义信息,高频代表更详细的纹理信息。在此思想的推动下,我们发现异常检测任务中正常和异常图像的频率分布存在明显差异,如图3所示。图3 MVTec AD数据集中正常和异常样本的能量随频率的分布,阴影表示标准差
基于此,我们认为仅使用一个生成器来学习RGB图像的全频率重建是困难且不合适的,因此提出了一种利用多频分支分别重构不同频带信息的异常检测框架,并设计了合适的结构以提升模型的异常检测效果,相较于对比方法取得了最SOTA结果,如图4所示。图4 不同方法AUROC检测结果对比图
具体地,本文有如下几点贡献:
1)从频域的角度重新思考了正常和异常图像的区别,提出了一种全频率通道选择重构网络(Omni-frequency Channel-selection Reconstruction,OCR-GAN)。
2)提出了频率解耦(Frequency Decoupling,FD)模块来获取图像的不同频带信息,实现多分支的全频重建。
3)提出了通道选择(Channel Selection,CS)模块来实现多支路之间的全频率交互和不同信道特征的自适应选择。
4)大量的实验证明了提出方法的优越性,例如,我们在没有额外训练数据的MVTec AD数据集上实现了新的SOTA 98.3检测AUROC,相较于没有额外训练数据的基于重构方法获得了+18.3↑提升,同时相较于SOTA方法获得了+0.3↑提升。
我们的方法包含多个生成器对不同频率图像进行重建,同时与鉴别器D交替训练以进一步提高模型性能。具体来说,我们提出了一个有效的频率解耦模块(FD)来解耦输入图像到全频图像,以及一个通道选择模块(CS)在多个频率编码器之间通过自适应通道选择的方式进行特征交互。模型完成训练后的推理阶段,重构图像与原图像的重构误差作为图像的异常得分。图5 OCR-GAN方法示意图
图像中不同的频段包含不同类型的信息,例如低频代表更多的语义信息,高频代表更详细的纹理信息。该模块用来将原始图像分解为多个频段图像,以获得信息更丰富的全频段显性表达,具体包含如下3个过程:
1)将原始图像与5x5高斯核进行卷积,获得下采样图像
2)通过多次上下采样操作得到一组模糊图像
3)模糊图像按照处理深度不同程度地丢失了一些高频信息,进一步计算相邻图像之间的差值得到全频域图像。图5显示了多个不同频域分量的定性表示结果。
在只有FD模块的异常检测框架中,多频率分支相对独立,这违背了不同频率相辅相成的客观事实。为此,我们设计了一种新颖的通道选择模块,实现了多支路间的频域交互和不同通道特征的自适应选择。图6(a)展示了双频率下CS模块的微观详细结构,即只包含低频和高频特征,但其可以很容易地扩展到多分支。图6(b)展示了CS模块与频率编码器之间的宏观交互方式。图6 (a)CS模块示意图;(b)CS模块与多频编码器交互方式
本文与主流的异常检测方法(AGAN[5]、AE[6]、Skip-GANomaly[7]、GradCon[8]、Puzzle-AE[9]、DGAD[10]、DRAEM[11]、DifferNet[12]、CutPaste[13]、InTra[14])在多个数据集上进行定量对比实验。如表1/2/3/4所示,提出的OCR-GAN在MVTec AD上获得了98.3 AUROC结果,且在全部数据集上都获取了SOTA结果,相较于对比方法取得了明显优势。表1 MVTec AD结果对比表
表2 DAGM结果对比表
表3 KolektorSDD结果对比表
表4 CIFAR-10结果对比表
图7展示了不同重建方法的定性对比,可以看到本文提出的方法对输入图像的正常区域具有很好的重建结果,对于异常区域具有明显的区分性,证明了OCR-GAN的有效性。
图7 不同方法的重建结果对比
1)图8展示了不同模块对异常得分分布影响,可以看到,在基线直方图中,正常样本和异常样本无法通过异常得分进行有效区分。逐步增加FD和CS模块后,模型的区分能力得到了提高,表明每个模块对方法结果都有贡献。图8 不同模块组合下的异常得分分布图
2)我们将每个测试样本的潜在空间特征从D的最后一个卷积层映射到一个二维子空间。如图9显示,正常和异常样本在潜在空间中具有较强的聚类效应,且具有明显的区分性。图9 正常/异常样本t-SNE分布图
3)表5展示了频率分支对于模型结果影响。结果表明,仅使用高频信息比使用低频信息效果更好,这意味着异常区域包含更多的高频信息。然而,由于缺乏不同频率支路之间的信息交互,单独使用双频支路效果有限,而设计的CS模块可以很好地处理该问题,进一步提高了模型的性能。表5 频率分支数量剥离实验结果
本文从频域的角度提出了一种基于重构的OCR-GAN异常检测方法。具体来说,我们提出了FD模块将输入图像解耦到不同的频率空间,并将图像重建过程建模为并行的全频率图像恢复的组合。为了更好地实现不同编码器之间的频率交互,我们提出了一种定制的CS模块,其可以自适应地在多个支路之间选择不同的信道以增强每一个频域的特征。我们的方法在没有额外训练数据的情况下,在Sensory AD和Semantic AD任务上相较于同时代方法具有明显的优势。未来,我们将进一步探索AD任务中轻量化模型的设计,同时构建更具有挑战性的实际应用数据集。
[1]Bergmann, Paul, et al. "MVTec AD--A comprehensive real-world dataset for unsupervised anomaly detection." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.
[2] Wieler, Matthias, and Tobias Hahn. "Weakly supervised learning for industrial optical inspection." DAGM symposium in. Vol. 6. 2007.[3] Tabernik, Domen, et al. "Segmentation-based deep-learning approach for surface-defect detection." Journal of Intelligent Manufacturing 31.3 (2020): 759-776.[4] Krizhevsky, Alex, and Geoffrey Hinton. "Learning multiple layers of features from tiny images." (2009): 7.[5] Schlegl, Thomas, et al. "Unsupervised anomaly detection with generative adversarial networks to guide marker discovery." International conference on information processing in medical imaging. Cham: Springer International Publishing, 2017.[6] Bergmann, Paul, et al. "Improving unsupervised defect segmentation by applying structural similarity to autoencoders." arXiv preprint arXiv:1807.02011 (2018).[7] Akçay, Samet, Amir Atapour-Abarghouei, and Toby P. Breckon. "Skip-ganomaly: Skip connected and adversarially trained encoder-decoder anomaly detection." 2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019.[8] Kwon, Gukyeong, et al. "Backpropagated gradient representations for anomaly detection." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXI 16. Springer International Publishing, 2020.[9] Salehi, Mohammadreza, et al. "Puzzle-ae: Novelty detection in images through solving puzzles." arXiv preprint arXiv:2008.12959 (2020).[10] Xia, Xuan, et al. "Discriminative-generative representation learning for one-class anomaly detection." arXiv preprint arXiv:2107.12753 (2021).[11] Zavrtanik, Vitjan, Matej Kristan, and Danijel Skočaj. "Draem-a discriminatively trained reconstruction embedding for surface anomaly detection." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.[12] Rudolph, Marco, Bastian Wandt, and Bodo Rosenhahn. "Same same but differnet: Semi-supervised defect detection with normalizing flows."Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2021.[13] Li, Chun-Liang, et al. "Cutpaste: Self-supervised learning for anomaly detection and localization." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.[14] Pirnay, Jonathan, and Keng Chai. "Inpainting transformer for anomaly detection." International Conference on Image Analysis and Processing. Cham: Springer International Publishing, 2022.
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-异常检测或者缺陷检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如异常检测或者缺陷检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看