谷歌提出FlexiViT：适用于所有Patch大小的模型

2022-12-20 05:12

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：CVHub

Title: FlexiViT: One Model for All Patch Sizes
Author: Lucas Beyer et al. (Google Research)
Paper: https://arxiv.org/pdf/2212.08013v1.pdf
Github: https://github.com/google-research/big_vision

太长不看版，果然还是延续谷歌的风格，创新不够，实验来凑。

废话不多说，直接上图，一图胜千言：

顾名思义，FlexiViT，翻译过来不就是灵活的 ViT 嘛？

Ooo，那怎么体现灵活？我们先回顾下 Vision Transformers 的工作流程。

一句话总结就是，ViT 是一种通过将图像切割成一个个小方块(patch)将图像转换为序列从而输入到Transformer网络进行训练和推理的一种神经网络架构。

本文的重点便是在研究这些小块块对性能的最终影响。通常来说：

方块切的越小，精度会越高，但速度就变慢了；
方块切的越大，精度会降低，但速度就上来了；

So,我们究竟是要做大做强，还是做小做精致？不用急，来自谷歌大脑的研究人员为你揭晓答案：成年人才做选择，老子大小通吃。

正经点，让我们切回来，古哥通过燃烧了数不尽的卡路里向我们证明了，在训练期间随机改变方块的大小可以得到一组在广泛的方块大小范围内表现良好的权重（泛化性能好）。

这结论有什么用？那便是使得在部署时大家可以根据不同的计算预算来调整模型。

通过在以下五大版图进行广泛的投资，可以清晰的发现收益率远超沪深300：

图像分类
图像-文本检索
开放世界检测
全景分割
语义分割

为了照顾下你们这些散(韭)户(菜)，古哥说你们可以将它任意添加到大多数依赖ViT骨干架构的模型来实现计算自由，即模型可以根据不同的计算资源调整自己的工作方式，从而获得更好的性能和效率。

说了这么多，怎么做？直接把代号都发给你了，明天早盘直接梭哈即可：

看到看到这里了，总不能白嫖吧？点个赞友情转发下再走咯~~~

FlexiViT论文和代码下载

后台回复：FlexiViT，即可下载上面论文和代码

Transformer交流群成立

扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章