Redian新闻
>
精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!

精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

CVer粉丝投稿

 

这篇论文提出了利用diffusion model作为data source来测评模型鲁棒性。提出的ImageNet-D数据集有效地降低state-of-art模型的测试准确率,降低幅度最高达60%,其中便包括了 CLIP,MiniGPT-4和LLaVa-NeXT等主流模型。 

标题:《ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object》
论文https://arxiv.org/pdf/2403.18775.pdf
主页https://chenshuang-zhang.github.io/imagenet_d/
源码https://github.com/chenshuang-zhang/imagenet_d
数据https://drive.google.com/file/d/11zTXmg5yNjZwi8bwc541M1h5tPAVGeQc/view

导读

本文作为被CVPR 2024接收的论文,幸运地成为324篇Highlight之一。

这篇论文提出了利用diffusion model作为data source来测评模型鲁棒性。提出的ImageNet-D数据集有效地降低state-of-art模型的测试准确率,降低幅度最高达60%,其中便包括了 CLIP,MiniGPT-4和LLaVa-NeXT等主流模型。

ImageNet-D从新的角度揭露了当前模型的failure case,启发未来模型升级。同时,ImageNet-D对于未来如何利用diffusion model生成更多的测试基准提供了参考。

本文第一作者Chenshuang Zhang和通讯作者Chengzhi Mao为清华大学校友,欢迎访问论文github。如果本工作对您有所帮助或者启发,请为该github仓库点亮一颗星,欢迎引用和交流。

背景与动机

近年来,神经网络在从图像分类到视觉问题回答等任务中取得了显著的成就。随着神经网络的广泛应用,如何评估神经网络的鲁棒性出于安全原因变得越来越重要。

为了评估神经网络的鲁棒性,ObjectNet收集了由人工拍摄的真实世界物体图像,这一过程既耗时又费力。为了提高数据收集效率,过于的研究提出使用合成图像作为测试图像。例如:

  • ImageNet-C引入了一系列low level的corruption,如高斯噪声和模糊。
  • ImageNet-9使用简单的剪切和粘贴技术创建关于物体背景的鲁棒性基准,但这些图像并不现实。
  • Stylized-ImageNet通过改变ImageNet图像的纹理生成新图像,却难以控制其他的因素,如图像背景等。

为什么说ImageNet-D很关键?

简单来说,ImageNet-D充分利用 diffusion model 生成高质量的图像作为数据来源,从中挖掘困难样本组成最终数据集。

实验结果表明,ImageNet-D 有效降低了大量模型的测试准确率,包括最新的大模型 CLIP 和 LLaVa-NeXT等。

ImageNet-D从一个崭新的角度揭露了当前大模型的错误,有利于启发模型的进一步迭代。

同时,整体数据集构建流程高效而灵活,可快速扩展到新的测试任务,为未来不同任务和场景构建测试基准提供了参考。

数据集图像示例

ImageNet-D数据集包含来自113个数据类别的4835张图像,有着不同的背景(background)、纹理(texture)和材料(material)组成. 和以往的合成数据集相比,ImageNet-D图像质量更高,且生成更为灵活可控。更多图像示例参见论文及github。

数据集构建框架

如上所述,ImageNet-D 基于 Stable Diffusion 模型生成。

首先,为了获得更加多样性的样本,论文获取了大量图像类别和属性(如背景)组合。

随后,本文利用了已知模型进行样本筛选,即若一张图片使得全部已知模型分类错误,那么将此图片加入最终测试集。

最后,通过引入了人工校验去除质量不佳的样本,并采用Amazon Mechanical Turk进行最终质量校验。

实验

首先,可以看到,和ImageNet-D相比,其有效降低了各个模型的test accuracy,降低幅度最高达60%!

其次,通过将ImageNet-D图像输入到大模型MiniGPT-4和LLaVa-1.5中,可以看到,它们对于输入图像中主要物体理解错误,均输出了错误答案:

以上实验结果表明,ImageNet-D对于当前视觉模型和VQA模型来说很有难度,其从一个新的角度展示了模型的failure cases,有利于启发未来的模型升级。

最后,一起看下更多结果和讨论。

模型准确率提高。本文从多个角度分析了如何提高ImageNet-D上的测试准确率。例如,我们发现改变模型结构,如ConvNext,并不能全面提高ImageNet-D准确率。增加模型训练数据对准确率提高有所帮助。更多实验和分析见论文。

最近邻搜索。除了图像分类任务外,ImageNet-D同时揭露了模型在最近邻搜索(nearest neighbor search)上的failure case。

将ImageNet-D中图像作为query图像,基于CLIP模型在ImageNet中搜索最相似的图像,返回结果如下图所示。

有趣的是,CLIP并为返回于query图像物体类别一致的图像,返回图像与query图像背景相似,或者物体类别与query图像背景有关。

利用生成图片作为训练数据。在数据集生成过程中,我们选取已知模型的共同错误(shared failures)作为最终测试集。

为了测试生成图片对于模型训练的作用,我们将已知模型分类正确的图片加入训练集进行模型训练。

如下表所示,有趣的是,利用生成图片训练模型不仅提升了ImageNet-D的分类准确率,对于自然图像组成的ObjectNet数据集分类准确率有1.34%提升。更多实验细节参见论文。

结论

本文基于diffusion models,提出了一个新的测试数据集ImageNet-D。通过和已有测试集相比,ImageNet-D有着更高的图像质量,数据集构建流程高效且灵活。

实验结果表明,ImageNet-D数据集有效地降低state-of-art模型的测试准确率,降低幅度最高达60%,包括CLIP,MiniGPT-4和LLaVa-NeXT等。

ImageNet-D从新的角度揭露了当前模型的failure case,启发未来模型升级。同时,ImageNet-D对于未来如何利用diffusion model生成更多的测试基准提供了参考。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别东京自由行(7)神舍和寺庙CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型情人节的玫瑰CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTCVPR最佳论文颁给自动驾驶大模型!LLM能突破行业技术“天花板”吗?CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计哈佛女孩刘亦婷被称为“骗局”,到底是成功还是失败案例?CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetCVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力长篇小说《太门西》连载70:第24章:柳毅龙井(1)CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真CVPR、AAAI、ICLR 2024优秀论文!CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度宾州南瓜节,花样百出驴象早春战犹酣大三本科生在CVPR 2024上发表论文!同是家属准证,新加坡的DP和LTVP准证到底有什么不同?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。