Redian新闻
>
最新NaViT模型炸场!适用任何长宽比+分辨率,性能能打的Transformer

最新NaViT模型炸场!适用任何长宽比+分辨率,性能能打的Transformer

公众号新闻



  新智元报道  

编辑:拉燕
【新智元导读】无视长宽比及分辨率!百变适用Transformer。

今天要介绍的是NaViT,这是一种适用于任何长宽比以及分辨率的Transformer模型。

在使用计算机视觉模型处理图像之前,要先将图像调整到固定的分辨率,这种方式很普遍,但并不是最佳选择。

Vision Transformer(ViT)等模型提供了灵活的基于序列的建模,因此可以改变输入序列的长度。

在本篇论文中,研究人员利用NaViT(原生分辨率ViT)的这一优势,在训练过程中使用序列打包,来处理任意分辨率和长宽比的输入内容。

在灵活使用模型的同时,研究人员还展示了在大规模监督和对比图像-文本预训练中训练效率的提高。

NaViT可以高效地应用于图像和视频分类、物体检测和语义分割等标准任务,并在鲁棒性和公平性基准方面取得了更好的结果。

在推理时,输入分辨率的灵活性可用于平滑地控制测试时间的性价比权衡。

研究人员相信,NaViT标志着脱离了大多数计算机视觉模型所使用的标准CNN设计的输入和建模流水线,代表了ViTs的一个有前途的方向。

如下图所示,NaViT在预训练期间(左图)有显著的计算效率,并可用于下游微调(中图)。

且单个NaViT可成功应用于多个分辨率(右图),在性能和推理成本之间实现平衡。

要知道,深度神经网络通常以成批输入进行训练和运行。

为了在硬件上实现高效的处理,意味着批次形状是固定的,反过来又说明计算机视觉应用的图像大小是固定的。

这一点再加上卷积神经网络历来存在的架构限制,导致研究人员要么调整图像大小,要么将图像填充为固定大小。

但这两种方法都存在缺陷:前者损害性能,后者效率低下。

ImageNet、LVIS和WebLI分别作为分类、检测和网络图像数据集的代表实例,对其长宽比的分析表明,大多数图像通常不是正方形的,如下图所示。

在语言建模中,通常通过示例打包绕过固定序列长度的限制:来自多个不同示例的标记被组合在一个序列中,这可以显著加快语言模型的训练。

通过将图像视为补丁(标记)序列,研究人员发现,Vision Transformers也能从同样的范式中获益,研究人员称之为Patch n' Pack。

应用这种技术,可以在原有的分辨率的图像上训练视觉transformer。

示例包装后可以在保持长宽比的情况下实现可变分辨率图像,从而减少训练时间,提高性能和灵活性。

研究人员展示了为支持Patch n'Pack而需要修改的数据预处理和建模。

研究人员在NaViT中使用的基本架构沿用了Vanilla ViT,并进行了必要修改。

此外,研究人员还对ViT进行了一些小的改进。

研究人员在两种设置中对NaViT进行预训练:在JFT-4B上进行分类训练和在WebLI上进行对比语言图像训练。

通常情况下,对于JFT,在训练前会对图像进行截取。而在这两种情况下,图像都会被调整为正方形。

除非另有说明,所有NaViT模型都是在没有这些操作的情况下进行预训练的,并保留了原有的长宽比。

NaViT使用FLAX库,在JAX中实现,并在Scenic中进行构建。

这里研究人员进行了两种不同的与训练——

分类预训练和对比预训练。

上图展示了通过序列打包实现的连续token丢弃策略,提高了表现性能。

研究人员对论文中所介绍的的因子化嵌入及其设计选择进行评估。

他们关注的是绝对性能,以及对训练体系之外的分辨率的推断。

为了测试这一点,研究人员在JFT上对NaViT-B/16模型进行了200k步的训练,分辨率为R∼U(160, 352)。

在不修改嵌入变量的情况下,研究人员评估了一系列分辨率下的性能,将ViT-B/16与在固定分辨率256下训练的ViT-B/16进行比较。

对于相同数量的图像,在新的分辨率下使用位置嵌入的标准插值进行了评估。

下图则是测试结果。

很明显能发现的是,因子化方法优于基线ViT和Pix2struct的学习型二维嵌入,后者尤其难以泛化到更高分辨率。

NaViT在ImageNet-A上的表现也更好,因为ImageNet-A上有许多长宽比极高的图像,而且重要信息都在图片中心之外。

下图展示了使用NaViT-L/16或ViT-L/16评估根据公平性相关信号训练的注释器的准确性。

左图:NaViT提供了更好的表示方法,提高了注释器的准确性。

右图:与将图像大小调整为正方形相比,在NaViT中使用原始长宽比可获得更高的性能。

研究人员已经证明,Patch n' Pack--序列打包在视觉变换器中的简单应用--可显著提高训练效率。由此产生的NaViT模型可在推理时应用于多种分辨率,并以低成本适应新任务。

Patch n'Pack使得以前因为需要固定形状而进行不下去的各种研究成为可能,包括自适应计算和提高训练和推理效率的新算法。

详细研究请参考原论文。因能力有限,本文翻译中若有错讹,深表歉意。

参考资料:
https://arxiv.org/pdf/2307.06304.pdf




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强From sea to shining sea 美国开车经验分享基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘Transformer作者创立,Hinton、李飞飞青睐,明星创企Cohere推出打工人专用知识助手ChatGPT危了!注意力机制的神秘bug曝光!Transformer模型恐大受冲击...华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报Transformer出逃八子最后一人正式创业!坐标日本搞AI“群”模型,本人:在谷歌有被困住的感觉ICML 2023 | 神经网络大还是小?Transformer模型规模对训练目标的影响包粽子ACL 2023 Findings | 概率句法角度的Transformer诠释5分钟端侧部署视觉大模型!专为Transformer优化的AI芯片来了Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%transformer的细节到底是怎么样的?Transformer 连环18问!彻底抛弃Transformer,八金刚之一再创业!联手前谷歌Brain大佬创建自然启发智能模型用 Transformer 和 RLHF「炼」大模型,危?您了解法拉菲(Falafel)吗?写在6月12日之前的美食之旅ChatGPT危了!「注意力公式」8年神秘bug首曝光,Transformer模型恐大受冲击解码器 | 基于 Transformers 的编码器-解码器模型Transformer速查宝典:模型、架构、训练方法的论文都在这里了加州高铁LeCun力挺!马毅教授五年集大成之作:数学可解释的白盒Transformer,性能不输ViT揭秘Transformer基于上下文学习的能力:看它如何学到正确的线性模型?大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤炸裂!微软新作LongNet:将Transformer扩展到10亿个Tokens在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数编码器-解码器 | 基于 Transformers 的编码器-解码器模型ViLT: 没有卷积和区域监督的视觉-语言Transformer模型LeCun力挺,马毅教授五年集大成之作:完全数学可解释的白盒Transformer,性能不输ViT专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章PackedBert:如何用打包的方式加速Transformer的自然语言处理任务德国马克思城堡(Marksburg castle),古堡建筑专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。