Redian新闻
>
工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

科技

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【异常检测和缺陷检测】微信交流群

在CVer微信公众号后台回复:Myriad,可以下载本论文pdf,学起来!

一句话总结

通过应用视觉专家进行工业异常检测,以实现明确的异常检测和高质量的异常描述,还可进行多轮对话,性能表现出色!优于AnomalyGPT等网络,代码即将开源!

Myriad

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

单位:哈工大(左旺孟团队), 琶洲实验室

论文:https://arxiv.org/abs/2310.19070

代码:https://github.com/tzjtatata/Myriad

现有的工业异常检测(IAD)方法可以预测异常检测和定位的异常分数。然而,它们很难对异常区域进行多轮对话和详细描述,例如工业异常的颜色、形状和类别。

最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 LMM 中缺乏有关异常检测的知识,而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。

本文提出了一种新颖的大型多模态模型,通过应用视觉专家进行工业异常检测(称为Myriad),从而实现明确的异常检测和高质量的异常描述。

具体来说,采用 MiniGPT-4 作为基础 LMM,并设计一个专家感知模块,将视觉专家的先验知识嵌入到大型语言模型(LLM)可以理解的标记中。

为了弥补视觉专家的错误和困惑,引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外,提出了一个视觉专家讲师,它使 Q-Former 能够根据视觉专家先验生成 IAD 领域视觉语言标记。

实验结果

在MVTec-AD 和 VisA 基准上的大量实验表明,本文提出的方法不仅在 1-class 和少样本设置下比最先进的方法表现更好,而且还提供了明确的异常预测以及 IAD 中的详细描述领域。

在CVer微信公众号后台回复:Myriad,可以下载本论文pdf,学起来!

CVPR / ICCV 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

异常检测和缺陷检测交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-异常检测或者缺陷检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如异常检测或者缺陷检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测中秋夜,嫦娥梦清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生中国模式已死亡通用异常检测新曙光:华科大等揭秘GPT-4V的全方位异常检测表现利用视觉大模型,虹软引发商拍市场一场豹变|甲子光年时隔9年,中国学者再获诺伯特·维纳奖!哈工大高会军教授摘得桂冠90后副教授一作,唯一通讯作者!哈工大团队最新成果登ScienceNeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%历史上最长的族谱,这位台湾来的老人的家族一直延续了下来让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%智能周报|OpenAI推多模态模型,计划开发AI硬件和芯片;从亚马逊融40亿美元后,Anthropic想再从Google融20亿大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述盘点大模型、多模态和视觉能投的会议期刊死后要去的100个地方中国糖尿病患者世界第一重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型中国已经有238个大模型了?李彦宏劝各位少做点大模型多搞搞应用吧​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan团圆!哈工大定制115000块专属月饼送学子……听,教育早新闻来了UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源ACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练通用视觉推理显现,UC伯克利炼出单一纯CV大模型,三位资深学者参与无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展LLM幻觉问题全梳理!哈工大团队50页综述重磅发布GPT-4V在异常检测上有多少强?华科大等最新测评来了!刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。