Redian新闻
>
ICLR 2024 | 跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIP

ICLR 2024 | 跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIP

公众号新闻


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


零样本异常检测(ZSAD)允许检测模型仅利用辅助数据进行训练,从而在没有任何目标数据集训练样本的情况下检测异常。这在因各种原因(如数据隐私问题)无法获取训练数据时非常关键。


然而,这项任务面临的挑战在于,模型需要能够跨不同领域泛化异常检测能力,尤其是前景对象、异常区域及背景特征(比如不同产品或器官上的缺陷或肿瘤)在不同应用中可能大相径庭。


为了改进 CLIP 模型,来自浙江大学、新加坡管理大学、哈佛大学的研究者联合提出 AnomalyCLIP,使其能在不同领域中更准确地进行零样本异常检测。AnomalyCLIP 的核心思想是学习一种与对象不相关的文本提示技术(object-agnostic learning),这种技术能够捕捉到图像中的一般性正常和异常特征,而不依赖于任何特定的前景对象,从而在多种语义的对象上实现泛化的异常识别。在 17 个来自不同领域(如缺陷检测和医疗成像)的真实世界异常检测数据集上进行的大规模实验证明, AnomalyCLIP 在跨域且高度多样化类别语义的数据中实现了卓越的零样本异常检测和分割能力。



  • 论文名称:AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection

  • 文章地址:https://arxiv.org/pdf/2310.18961.pdf

  • 代码地址:https://github.com/zqhang/AnomalyCLIP


背景


传统的异常检测方法通常需要在特定应用领域内有可用的训练样本来学习检测模型。然而,在某些情况下,这个假设可能并不成立,比如访问训练数据会违反数据隐私政策,或者目标领域内根本就没有可用的训练数据。


图 1: 不同文本提示方法的结果对比。


由于不同应用场景中异常的视觉外观、前景对象和背景特征存在很大差异,例如不同产品表面的缺陷、不同器官上的病变或肿瘤,或者是工业缺陷与医学图像中肿瘤 / 病变的对比,我们需要能够针对这些变化进行准确零样本异常检测(ZSAD)的检测模型,这要求模型具有强大的泛化能力。


最近,大型预训练的视觉 - 语言模型(VLMs)在包括异常检测在内的多种视觉任务上展示了出色的零样本识别能力。特别是,通过使用数以百万计的图像 - 文本对进行预训练,CLIP 在强化各种下游任务的泛化能力方面发挥了巨大作用。然而,CLIP 这类 VLM 主要是为了学习前景对象的类别语义,而不是图像中的异常 / 正常模式,因此它们在理解视觉异常 / 正常性方面的泛化能力有限,导致在 ZSAD 性能方面表现不佳。


此外,当前使用的文本提示方法,如图 1d 和图 1e 所示,无论是手动定义的文本提示还是可学习的文本提示,往往会导致提示文本嵌入偏向于全局特征以实现有效的对象语义对齐,而忽略了通常表现在细节、局部特征中的异常。


方法介绍


AnomalyCLIP 旨在通过学习对象不相关的文本提示来让 CLIP 实现不同领域中的准确 ZSAD,从而捕获图像中的通用正常性和异常性,如图 2 所示。AnomalyCLIP 首先为 “正常” 和 “异常” 这两个广泛的类别设计了一个简单而普遍有效的可学习的文本提示模板,然后通过使用辅助数据,结合图像级别和像素级别的损失函数来让提示嵌入学习图像中存在的通用正常和异常模式。


这样,AnomalyCLIP 可以专注于图像中的异常区域而非对象的语义,使其能够零样本的识别出与辅助数据中相似的异常模式。如图 1a 和图 1b 所示,尽管辅助数据和目标数据中前景对象的语义完全不同时,但是其异常模式保持相似,例如金属螺母和板材上的划痕、晶体管和 PCB 的错位、不同器官表面的肿瘤 / 病变等。而 CLIP 的文本提示嵌入在不同领域间的泛化能力有限,如图 1c 所示。不同的是,AnomalyCLIP 学习到的对象不相关的文本提示嵌入能够有效地泛化,识别出跨领域图像中的异常,如图 1f 所示。AnomalyCLIP只需要微调一次,就能够泛化地捕捉不同对象、场景甚至跨领域的异常。其他的没有了。


图 2: AnomalyCLIP 框架图


实验结果


该研究在 17 个公开可用的数据集上进行了大量实验,涵盖了各种工业检测场景和医学成像领域(包括摄影、内窥镜和放射学),以评估 AnomalyCLIP 的性能。在工业检测方面,该研究考虑了 MVTec AD、VisA、MPDD、BTAD、SDD、DAGM 和 DTD-Synthetic 等数据集。在医学成像方面,该研究考虑了皮肤癌检测数据集 ISIC、结肠息肉检测数据集 CVC-ClinicDB 和 CVC-ColonDB、Kvasir、Endo、甲状腺结节检测数据集 TN3k、脑瘤检测数据集 HeadCT、BrainMRI、Br35H 和 COVID-19 检测数据集 COVID-19。最先进的 baseline 包括 CLIP、CLIP-AC、WinCLIP、VAND 和 CoOp。论文附录提供了有关方法和数据预处理的更多细节。


表 1:工业领域零样本异常检测性能比较。最佳性能以红色突出显示,次佳性能以蓝色突出显示。†表示结果来自原始论文。(除了 MVTec AD 数据集以外,其他所有结果均由 MVTec AD fine-tuining 得到)


各种工业检测领域的零样本异常检测性能


表 1 展示了 AnomalyCLIP 与五种 baseline 在七个工业缺陷数据集上的零样本异常检测结果,这些数据集具有非常不同的前景对象、背景和 / 或异常类型。AnomalyCLIP 在这些数据集上取得了优越的零样本异常检测性能,大部分情况下明显优于其他五种方法。CLIP 和 CLIP-AC 表现较差的原因在于 CLIP 的原始预训练侧重于对齐对象语义而非异常语义。WinCLIP 和 VAND 通过使用手动定义的文本提示获得了更好的结果。另外,CoOp 采用了可学习的提示来学习全局异常语义。然而,这些提示专注于全局特征,忽略了细粒度的局部异常语义,导致它们在异常分割上表现不佳。为了将 CLIP 适应于零样本异常检测,AnomalyCLIP 学习了对象不相关的文本提示,通过全局和局部上下文优化,专注于学习通用的异常 / 正常模式,使得模型能够有效识别全局和局部的异常。得到的提示还可以推广到来自不同领域的不同数据集。为了提供更直观的结果,该研究在图 3 中可视化了 AnomalyCLIP、VAND 和 WinCLIP 在不同数据集上的异常分割结果。与 VAND 和 WinCLIP 相比,AnomalyCLIP 可以对来自不同工业检测领域的缺陷进行更准确的异常分割。


图 3: AnomalyCLIP 分割结果


表 2:医疗领域零样本异常检测性能比较。最佳性能以红色突出显示,次佳性能以蓝色突出显示。请注意,医疗异常检测数据集往往不同时包含像素级和图像级标签,因此评估图像级和像素级医疗异常检测的数据集有所不同。


从缺陷数据集到多样化的医学领域数据集的泛化能力


为了评估模型的泛化能力,该研究进一步考察了 AnomalyCLIP 在 10 个不同器官、不同成像设备上的医学图像数据集上的零样本异常检测性能。表 2 展示了相关结果,其中包括 AnomalyCLIP、VAND 和 CoOp 等基于学习的方法,均使用 MVTec AD 数据进行fine-tuining。


值得注意的是,像 AnomalyCLIP 和 VAND 这样的方法在各种医学图像数据集上取得了令人满意的零样本异常检测性能,即使它们是使用缺陷检测数据集进行调优的。在所有这些方法中,由于其通过对象不相关的提示学习带来的强大泛化能力,AnomalyCLIP 是表现最佳的。


正如图 3 所示,AnomalyCLIP 能够准确检测出不同医学图像中的各种异常类型,例如摄影图像中的皮肤癌区域,内窥镜图像中的结肠息肉,超声图像中的甲状腺结节以及 MRI 图像中的脑肿瘤,其在定位异常病变 / 肿瘤区域方面的性能明显优于另外两种方法 WinCLIP 和 VAND。这再次证明了 AnomalyCLIP 在医学成像领域高度多样化的对象语义数据集中具有领先的零样本异常检测性能。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【Poem Reading Tuesday】all the time I pray to Buddha by Kobayashi锐捷网络闪耀CVPR 2024,外观异常检测方案斩获世界认可!​AAAI 2024 | 杭电等提出MINDS,基于序列超图和对抗学习增强多尺度扩散预测2024 多伦多国际车展(I)2024 Toronto International Auto Show ( I )【Poem Reading Tuesday】all the time I pray to Buddha by Kobayashi用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为ScalingCVPR 2024 | 借助神经结构光,浙大实现动态三维现象的实时采集重建低调女老板;32岁母胎单身女6年相亲百人以上,从未恋爱过清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024IPO重启,浙大校友芯片企业打头阵!三年收入20亿,背靠海康异常检测和缺陷检测微信群成立!2024 Chinese New Year's DinnerCVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计《人生这壶酒》&《新化蝶》WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型让机器准确「看懂」手物交互动作,清华大学等提出GeneOH Diffusion方法专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法ICLR 2024 杰出论文!涨点神器!Meta提出:ViT需要Registers越南旧政权的鈔票。 音樂:Romance De LamourCVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力17岁中专女生姜萍,闯进全球数学竞赛12强!为什么没有读高中,老师解答!能否破格录取,浙大回应3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑异常检测微信交流群成立!硅谷四月新闻:Amino合伙人与YC CEO、TechCrunch主编在YC|天使投资的Guesty完成九亿美金估值融资CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 SpotlightICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型“所想即所得”变革3D分割!浙大等团队联合推出基于LLM的3D物品分割OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTACVPR‘24全程满分+最佳论文候选!上交大港中文等提出神经场网格模型三大定理CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型ICLR 2024 | AnomalyCLIP:零样本异常检测新范式2024神奇魔幻哥伦比亚(二)波哥大:Monserrate Mountain突发!Fed 今年(2024)不会降息。花街预测CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样全美异常炎热!2024最新夏季气候预测,东北部+美西高温警告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。