Redian新闻
>
字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

公众号新闻
允中 发自 凹非寺
量子位 | 公众号 QbitAI

视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。

字节提出新基础模型——ViTamin,专为视觉语言时代设计。

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。

当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。

最终这一成果,入选计算机视觉顶会CVPR2024

视觉语言时代新基准

在视觉语言时代下,如何设计一个更好可扩展的视觉模型?

在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。

此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。

最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:

  • 第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。

  • 第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。

  • 第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。

  • 第四,混合架构在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现,研究人员设计了ViTamin模型

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。

然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。

接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。

作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。

多项SOTA

零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。

此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器

作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。

ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。

ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。

在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。

来自智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。

他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

论文链接:
https://arxiv.org/pdf/2404.02132.pdf

项目主页:
https://beckschen.github.io/vitamin

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别百度文心一言用户破 2 亿,李彦宏:文心大模型已成中国最领先的 AI 基础模型CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型97、长篇家庭伦理小说《嫁接》第二十六章 暴风骤雨(3)CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样又到一年毕业季CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型CVPR 2024 | 借助神经结构光,浙大实现动态三维现象的实时采集重建CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!美股基本面 - 2024_02_26 * 晚报 * 收盘:美股小幅收跌 市场关注通胀数据与联储政策。周一热门中概股多数上涨,理斯坦福发布报告:AI在多项任务中击败人类精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题基础模型、长文本、数据库、应用落地……一篇文章读懂今天大模型行业的关键问题丨2024 GDC年轻英俊,就这么死了?现实堪比惊悚大片CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024首个全开源时序预测基础模型:Zero-shot预测能力比肩从零训练最优模型CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut狗引儿【长篇】(十三)视觉prompt工程!无需微调、无需任何模型修改,让一个通用模型可以执行多种指定任务CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。