Redian新闻
>
顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测

顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【异常检测】微信交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

转载自:APRIL机器人智能感知与学习

题目:Omni-frequency Channel-selection Representations for Unsupervised Anomaly Detection
代码:https://github.com/zhangzjn/OCR-GAN

论文:https://ieeexplore.ieee.org/abstract/document/10192551


1.导语



近年来,无监督异常检测任务逐渐受到大家关注,其中基于密度和分类的方法在无监督异常检测中占据主导地位,而基于重构的方法由于重构能力差、性能不高而很少被提及,但后者不需要额外花费大量的训练样本进行无监督训练,具有更大的实用价值。本文着重改进基于重构的方法,从频率的角度处理感知异常检测任务(sensory anomaly detection),提出了一种新的全频率通道选择重构网络(Omni-frequency Channel-selection Reconstruction,OCR-GAN)。实验结果证明了提出方法的有效性和优越性,例如,在没有额外训练数据的情况下(不使用预训练模型或者其他数据集,即模型train from scratch),在MVTec AD数据集上实现了新的最先进的98.3检测AUC,显著地比基于重建的基线高+38.1↑,比SOTA高 +0.3↑。

2. 背景介绍



异常检测是视觉图像理解中的一项重要的二分类任务,用于区分给定图像是否偏离预定义的正常分布,在现实世界中有各种应用,例如新颖性检测、工业产品质量监控、缺陷修复等。现实应用中,异常检测任务可以分为感知异常检测(Sensory Anomaly Detection,见图1左图)和语义异常检测(Semantic Anomaly Detection,见图1右图)两大类,前者只存在协变量偏差而不存在语义偏差(常用MVTec AD[1]、DAGM[2]、KolektorSDD[3]等数据集),而后者则相反(常用CIFAR-10[4]数据集)。
图1 感知AD和语义AD任务图解

异常检测任务中获取异常样本耗时且成本较高,这驱动我们开展更实用的无监督AD方法研究。目前的无监督异常检测方法主要分为三类,如图2所示。

1)Density-based方法:基于密度的方法通常采用预训练的模型来提取输入图像的有意义嵌入向量,测试图像时通过计算嵌入表示与参考表示分布之间的相似度以得到异常分数。这种方法在MVTec AD等数据集上取得了较高的指标分数,但需要预训练模型加持且可解释性不足。

2)Classification-based方法:基于分类的方法试图找到正常/异常数据的分类边界,一般使用代理任务训练的模型来检测异常,因此该类方法依赖于代理任务与测试数据的匹配程度,且需要预训练模型和额外的训练数据。

3)Reconstruction-based方法:基于重构的方法包含一个用于重构输入图像的生成器结构,异常分数可解释为重构误差。这类方法不需要预训练的模型和额外的训练数据,但目前该类方法相较于其他方法表达能力略有差距。

本文重点研究基于重构的方法,期望增强生成器的重构能力以提升模型的异常检测能力。
图2 无监督常检测方法pipeline对比
对于一幅图像,不同的频段包含不同类型的信息,例如低频代表更多的语义信息,高频代表更详细的纹理信息。在此思想的推动下,我们发现异常检测任务中正常和异常图像的频率分布存在明显差异,如图3所示。

图3 MVTec AD数据集中正常和异常样本的能量随频率的分布,阴影表示标准差

基于此,我们认为仅使用一个生成器来学习RGB图像的全频率重建是困难且不合适的,因此提出了一种利用多频分支分别重构不同频带信息的异常检测框架,并设计了合适的结构以提升模型的异常检测效果,相较于对比方法取得了最SOTA结果,如图4所示。

图4 不同方法AUROC检测结果对比图

具体地,本文有如下几点贡献:

1)从频域的角度重新思考了正常和异常图像的区别,提出了一种全频率通道选择重构网络(Omni-frequency Channel-selection Reconstruction,OCR-GAN)。

2)提出了频率解耦(Frequency Decoupling,FD)模块来获取图像的不同频带信息,实现多分支的全频重建。

3)提出了通道选择(Channel Selection,CS)模块来实现多支路之间的全频率交互和不同信道特征的自适应选择。

4)大量的实验证明了提出方法的优越性,例如,我们在没有额外训练数据的MVTec AD数据集上实现了新的SOTA 98.3检测AUROC,相较于没有额外训练数据的基于重构方法获得了+18.3↑提升,同时相较于SOTA方法获得了+0.3↑提升。


3.方法介绍



3.1  总览
我们的方法包含多个生成器对不同频率图像进行重建,同时与鉴别器D交替训练以进一步提高模型性能。具体来说,我们提出了一个有效的频率解耦模块(FD)来解耦输入图像到全频图像,以及一个通道选择模块(CS)在多个频率编码器之间通过自适应通道选择的方式进行特征交互。模型完成训练后的推理阶段,重构图像与原图像的重构误差作为图像的异常得分。

图5 OCR-GAN方法示意图

3.2  频率解耦模块

图像中不同的频段包含不同类型的信息,例如低频代表更多的语义信息,高频代表更详细的纹理信息。该模块用来将原始图像分解为多个频段图像,以获得信息更丰富的全频段显性表达,具体包含如下3个过程:

1)将原始图像与5x5高斯核进行卷积,获得下采样图像

2)通过多次上下采样操作得到一组模糊图像

3)模糊图像按照处理深度不同程度地丢失了一些高频信息,进一步计算相邻图像之间的差值得到全频域图像。图5显示了多个不同频域分量的定性表示结果。

3.3  通道选择模块
在只有FD模块的异常检测框架中,多频率分支相对独立,这违背了不同频率相辅相成的客观事实。为此,我们设计了一种新颖的通道选择模块,实现了多支路间的频域交互和不同通道特征的自适应选择。图6(a)展示了双频率下CS模块的微观详细结构,即只包含低频和高频特征,但其可以很容易地扩展到多分支。图6(b)展示了CS模块与频率编码器之间的宏观交互方式。

图6 (a)CS模块示意图;(b)CS模块与多频编码器交互方式


4.实验结果



4.1  定量对比
本文与主流的异常检测方法(AGAN[5]、AE[6]、Skip-GANomaly[7]、GradCon[8]、Puzzle-AE[9]、DGAD[10]、DRAEM[11]、DifferNet[12]、CutPaste[13]、InTra[14])在多个数据集上进行定量对比实验。如表1/2/3/4所示,提出的OCR-GAN在MVTec AD上获得了98.3 AUROC结果,且在全部数据集上都获取了SOTA结果,相较于对比方法取得了明显优势。

表1 MVTec AD结果对比表 

表2 DAGM结果对比表

 

表3 KolektorSDD结果对比表

表4 CIFAR-10结果对比表

4.2  定性对比

图7展示了不同重建方法的定性对比,可以看到本文提出的方法对输入图像的正常区域具有很好的重建结果,对于异常区域具有明显的区分性,证明了OCR-GAN的有效性。

图7 不同方法的重建结果对比

4.3  解释性实验及剥离实验
1)图8展示了不同模块对异常得分分布影响,可以看到,在基线直方图中,正常样本和异常样本无法通过异常得分进行有效区分。逐步增加FD和CS模块后,模型的区分能力得到了提高,表明每个模块对方法结果都有贡献。

图8 不同模块组合下的异常得分分布图

2)我们将每个测试样本的潜在空间特征从D的最后一个卷积层映射到一个二维子空间。如图9显示,正常和异常样本在潜在空间中具有较强的聚类效应,且具有明显的区分性。

图9 正常/异常样本t-SNE分布图

3)表5展示了频率分支对于模型结果影响。结果表明,仅使用高频信息比使用低频信息效果更好,这意味着异常区域包含更多的高频信息。然而,由于缺乏不同频率支路之间的信息交互,单独使用双频支路效果有限,而设计的CS模块可以很好地处理该问题,进一步提高了模型的性能。

表5 频率分支数量剥离实验结果


5.总结与展望



本文从频域的角度提出了一种基于重构的OCR-GAN异常检测方法。具体来说,我们提出了FD模块将输入图像解耦到不同的频率空间,并将图像重建过程建模为并行的全频率图像恢复的组合。为了更好地实现不同编码器之间的频率交互,我们提出了一种定制的CS模块,其可以自适应地在多个支路之间选择不同的信道以增强每一个频域的特征。我们的方法在没有额外训练数据的情况下,在Sensory AD和Semantic AD任务上相较于同时代方法具有明显的优势。未来,我们将进一步探索AD任务中轻量化模型的设计,同时构建更具有挑战性的实际应用数据集。


参考文献



[1]Bergmann, Paul, et al. "MVTec AD--A comprehensive real-world dataset for unsupervised anomaly detection." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.
[2] Wieler, Matthias, and Tobias Hahn. "Weakly supervised learning for industrial optical inspection." DAGM symposium in. Vol. 6. 2007.
[3] Tabernik, Domen, et al. "Segmentation-based deep-learning approach for surface-defect detection." Journal of Intelligent Manufacturing 31.3 (2020): 759-776.
[4] Krizhevsky, Alex, and Geoffrey Hinton. "Learning multiple layers of features from tiny images." (2009): 7.
[5] Schlegl, Thomas, et al. "Unsupervised anomaly detection with generative adversarial networks to guide marker discovery." International conference on information processing in medical imaging. Cham: Springer International Publishing, 2017.
[6] Bergmann, Paul, et al. "Improving unsupervised defect segmentation by applying structural similarity to autoencoders." arXiv preprint arXiv:1807.02011 (2018).
[7] Akçay, Samet, Amir Atapour-Abarghouei, and Toby P. Breckon. "Skip-ganomaly: Skip connected and adversarially trained encoder-decoder anomaly detection." 2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019.
[8] Kwon, Gukyeong, et al. "Backpropagated gradient representations for anomaly detection." Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXI 16. Springer International Publishing, 2020.
[9] Salehi, Mohammadreza, et al. "Puzzle-ae: Novelty detection in images through solving puzzles." arXiv preprint arXiv:2008.12959 (2020).
[10] Xia, Xuan, et al. "Discriminative-generative representation learning for one-class anomaly detection." arXiv preprint arXiv:2107.12753 (2021).
[11] Zavrtanik, Vitjan, Matej Kristan, and Danijel Skočaj. "Draem-a discriminatively trained reconstruction embedding for surface anomaly detection." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[12] Rudolph, Marco, Bastian Wandt, and Bodo Rosenhahn. "Same same but differnet: Semi-supervised defect detection with normalizing flows."Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2021.
[13] Li, Chun-Liang, et al. "Cutpaste: Self-supervised learning for anomaly detection and localization." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
[14] Pirnay, Jonathan, and Keng Chai. "Inpainting transformer for anomaly detection." International Conference on Image Analysis and Processing. Cham: Springer International Publishing, 2022.
异常检测和缺陷检测交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-异常检测或者缺陷检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如异常检测或者缺陷检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型​ICML 2023 | 港大提出创新时空图预训练架构,助力智慧城市多维任务学习开车游记录:The Greenbrier, West Virginia, 11/132023 年十月回国经验点滴WSDM 2024 | 持续同调优化的图异常检测首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率顶刊TPAMI 2023!北大&华为提出:人体动作生成综述工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTA韦伯太空望远镜怎么看(2),顺带解释一下暗物质与暗能量地球上最会拍圣诞广告的John Lewis 2023 圣诞暖心广告发布(视频)北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP顶刊MIA 2023!PUNet:参数高效医学图像分割的提示微调性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight1年就出成绩,花小钱孩子也能多条赛道选择|赠品豪横顶刊TPAMI 2023!中科院提出:基于几何分析的神经辐射场编辑方法轻奢品质小团 黄石公园6日游:盐湖城接送+黄石湖自驾小艇+大提顿国家公园漂流+大提顿山缆车 5/22-9/11隔周三出发 YA6耶路撒冷3000年和巴勒斯坦4000年3-公元前后犹太人最后的皇族马喀比浙大提出KnowPAT框架:大模型的知识偏好对齐与垂域应用NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!GPT-4V在异常检测上有多少强?华科大等最新测评来了!红色日记 不玩围棋 4.16-30ICML 2023 | 苹果提出:无约束通道剪枝,剪枝的同时提升精度!24Fall留学生们还不知道选择「科研」还是「竞赛」?1年就出成绩,花小钱孩子也能多条赛道选择/赠品豪横|开团还乡记(二)“双向奔赴”今年 2023 AMC 10B vs 10A 难读如何?耶路撒冷3000年和巴勒斯坦4000年4-拜占庭时代抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge【周末综艺会10期】2023 旧金山峰会 【在雪里踏步】人脸编辑神器!浙大&腾讯提出FaceX:统一面部表征建立通用人脸编辑模型委内瑞拉军方出了一道选择题,逼迫英国政府做决定AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24医学顶刊Nature Medicine!达摩院提出:CT首次实现大规模胰腺癌筛查
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。