Redian新闻
>
CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!

CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

允中 发自 凹非寺
转载自:量子位(QbitAI)

视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。

字节提出新基础模型——ViTamin,专为视觉语言时代设计。

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。

当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。

最终这一成果,入选计算机视觉顶会CVPR2024

视觉语言时代新基准

在视觉语言时代下,如何设计一个更好可扩展的视觉模型?

在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。

此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。

最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:

  • 第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。

  • 第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。

  • 第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。

  • 第四,混合架构在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现,研究人员设计了ViTamin模型

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。

然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。

接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。

作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。

多项SOTA

零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。

此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器

作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。

ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。

ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。

在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。

论文链接:
https://arxiv.org/pdf/2404.02132

项目主页:
https://beckschen.github.io/vitamin

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 借助神经结构光,浙大实现动态三维现象的实时采集重建CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型基础模型、长文本、数据库、应用落地……一篇文章读懂今天大模型行业的关键问题丨2024 GDC大模型时代的计算机视觉!CVPR 2024线上论文分享会启动劝君莫惜花前醉 2024.03.02CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型一剪梅+南歌子CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解2024 Toronto International Auto Show ( I )CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型说说新加坡CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式2024 多伦多国际车展(I)CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetCVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架2024 Chinese New Year's DinnerCVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆一联两境突发!Fed 今年(2024)不会降息。花街预测CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!《记得我们有约》&《如初》CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构首个全开源时序预测基础模型:Zero-shot预测能力比肩从零训练最优模型CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别梦幻般的神仙水还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。