Redian新闻
>
CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!

CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

允中 发自 凹非寺
转载自:量子位(QbitAI)

视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。

字节提出新基础模型——ViTamin,专为视觉语言时代设计。

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。

当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。

最终这一成果,入选计算机视觉顶会CVPR2024

视觉语言时代新基准

在视觉语言时代下,如何设计一个更好可扩展的视觉模型?

在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。

此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。

最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:

  • 第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。

  • 第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。

  • 第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。

  • 第四,混合架构在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现,研究人员设计了ViTamin模型

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。

然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。

接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。

作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。

多项SOTA

零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。

此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器

作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。

ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。

ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。

在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。

论文链接:
https://arxiv.org/pdf/2404.02132

项目主页:
https://beckschen.github.io/vitamin

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题《记得我们有约》&《如初》CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架首个全开源时序预测基础模型:Zero-shot预测能力比肩从零训练最优模型简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!2024 Toronto International Auto Show ( I )大模型时代的计算机视觉!CVPR 2024线上论文分享会启动CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!CVPR 2024 | 李飞飞和吴佳俊团队新作「BVS」套件评估计算机视觉模型字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR‘24全程满分+最佳论文候选!上交大港中文等提出神经场网格模型三大定理CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别2024 多伦多国际车展(I)CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造劝君莫惜花前醉 2024.03.02一剪梅+南歌子CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT2024 Chinese New Year's Dinner大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布突发!Fed 今年(2024)不会降息。花街预测ICML 2024 | 北大、字节提出新型双层位置编码方案,有效改善长度外推效果CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型说说新加坡CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONutCVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!一联两境CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解梦幻般的神仙水港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。