Redian新闻
>
10亿参数、多项SOTA,智源开源视觉基础模型EVA

10亿参数、多项SOTA,智源开源视觉基础模型EVA

公众号新闻

机器之心专栏

机器之心编辑部

智源开源了简单又强大、具有 10 亿参数的视觉基础模型 EVA,将最强语义学习与最强几何结构学习相结合,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当前最强性能。


  • 论文地址:https://arxiv.org/abs/2211.07636

  • 代码地址:https://github.com/baaivision/EVA


作为一种视觉预训练方法,掩码图像建模(Masked Image Modeling,简称 MIM)近期得到了蓬勃发展,自从 BEiT 开始,一系列新方法诸如 SimMIM、MAE、MVP 等被陆续设计出,这个领域也受到了很大关注。然而,在十亿参数量级别的视觉预训练模型中,最具竞争力的模型例如 ViT-g、SwinV2、CoCa 等仍然严重依赖有监督或弱监督训练,以及不可公开访问的数亿级有标签数据。


理想的视觉预训练应当只需简单的操作:譬如抓好语义学习和几何结构学习这两个关键点,基本可以搞定绝大部分的视觉任务。


智源曹越团队最新开源的视觉预训练模型 EVA,将最强语义学习(CLIP)与最强几何结构学习(MIM)结合,仅需使用标准的 ViT 模型,并将其规模扩大到十亿参数(1-Billion)进行训练,即可得到当前最强大的十亿级视觉基础模型 EVA。


具体而言,EVA 的训练方法与 MVP、MILLAN 类似,即通过重构 CLIP 特征来进行掩码图像建模(masked image modeling)。如下图所示,CLIP 模型输入为完整的图像,而 EVA 模型的输入为有遮盖的图像,训练过程是让 EVA 模型遮盖部分的输出去重构 CLIP 模型对应位置的输出,从而以简单高效的方式让 EVA 模型同时拥有了最强语义学习 CLIP 的能力和最强几何结构学习 MIM 的能力。不同于之前的方法,EVA 证明了这种训练方式可以帮助模型将参数扩展到十亿量级,并且在这个参数量级下在广泛下游任务中取得出色的性能。



总结而言,EVA 具有以下特点:


1. 高效


EVA 仅使用开源的纯图像数据即可进行掩码预测任务,不需要预训练阶段重新学习语义以及不需要巨量的成对有标注数据。相比而言,主流标杆性模型(ViT-g、SwinV2、CoCa 等)仍依赖于冗长的有监督或弱监督训练,以及不可公开访问的数亿级有标签数据。


2. 简单


EVA 无需特殊设计网络结构。使用简单的网络结构—标准的 ViT-g,而无需额外特殊设计的算子,使得其非常容易的迁移到广泛的下游任务,并且可以和其他模态共享。

实验


目前,EVA 在主流任务评测中的表现都可圈可点:


1. 多项重要视觉感知任务取得 state-of-the-art 性能


ImageNet 图像分类中取得 89.7% 的 top-1 准确率;Kinetics-700 视频动作识别取得 82.9% 的 top-1 准确率;COCO 目标检测取得 64.7 mAP、实例分割取得 55.5 mAP;LVIS 的实例分割取得 55.0 mAP;语义分割的 COCO-stuff 取得 53.4 mIoU、ADE-20K 取得 62.3 mIoU。



2. 参数量变引发性能质变:在 LVIS 上性能极强;可以稳定并加速 CLIP 训练,产生当前最强的开源 CLIP 模型。


首先,在 LVIS(超过一千类)实例分割任务上表现和 COCO(80 类)相仿,比之前的 SOTA 方法 MAE 高出 5.8 个点;第二,使用 EVA 作为 CLIP 训练的初始化,其性能远超随机初始化的 CLIP 训练,如下图所示,在十亿参数量级下,和 Open CLIP 官方使用完全一样的训练方式下,在几乎所有的零样本基准下均有显著的性能提升,除此之外,EVA 可以极大地稳定巨型 CLIP 的训练和优化过程,训练过程仅需使用 FP16 混合精度,综合来看,EVA 帮助训练得到当前最强且最大的开源 CLIP 模型,已经有团队在尝试使用其帮助 AIGC 模型的生成质量。



圈重点:EVA 全家桶开源!


十亿参数的预训练模型,下游 ImageNet 图像分类、Kinetics 视频动作识别、COCO 和 LVIS 目标检测和分割、ADE20K 语义分割、以及最强 CLIP 模型,全部开源!



欢迎感兴趣的小伙伴前去使用!



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurlPS 2022 | 全新大模型参数高效微调方法SSF:仅需训练0.3M的参数,效果卓越首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?硬核观察 #857 Valve 付费给 Steam Deck 软件的开源开发者毛泽东秋收起义后开始带兵打仗Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布!Valve向Steam Deck软件的开源开发者支付报酬Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3龙卷风健康快递 217达摩院开源半监督学习框架Dash,刷新多项SOTA100万亿参数的GPT 4 刷屏AI社区,大概率是假消息秋日阳台上的早餐,晚餐,下午茶。。。Tea 筹集了 890 万美元,推出了一个帮助开源开发者获得报酬的新协议 | Linux 中国同学去世消息太意外了——一路走好强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力硬核观察 #896 谷歌裁掉了很多重要的开源开发者百亿、千亿级参数的基础模型之后,我们正在步入以数据为中心的时代?微软亚洲研究院持续迭代BEiT,为通用基础模型的大一统发展奠定基础用CNN做基础模型,可变形卷积InternImage实现检测分割新纪录!Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构AI挑战国际数学奥林匹克竞赛,Meta神经定理证明器拿到多项SOTA为什么人工智能的未来是灵活、可重用的基础模型无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!马斯克称自己有可能被暗杀/ B站回应新一轮裁员/ 推特拒绝做开源开发…今日更多新鲜事在此超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2FormerAI学不会的“两面三刀”,对基础模型发展很重要大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022微软团队发布第一个基于AI的天气和气候基础模型 ClimaXNeurlPS 2022 | 全新大模型参数高效微调方法:仅需训练0.3M的参数将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可看万山红遍,层林尽染,百鱼争流--Erin dale parkAAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA拟未:为未来的基础模型做好准备谷歌真急了,推DeepMind撑场!700亿参数Sparrow硬刚ChatGTP令人心动的AI offer(四):AIGC、多模态、强化学习、高性能计算等职位,来自腾讯、博世、超参数、智源研究院、MSRA
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。