Redian新闻
>
谷歌提出FlexiViT:适用于所有Patch大小的模型

谷歌提出FlexiViT:适用于所有Patch大小的模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>Transformer微信技术交流群

转载自:CVHub

Title: FlexiViT: One Model for All Patch Sizes

Author: Lucas Beyer et al. (Google Research)

Paper: https://arxiv.org/pdf/2212.08013v1.pdf

Github: https://github.com/google-research/big_vision

太长不看版,果然还是延续谷歌的风格,创新不够,实验来凑。

废话不多说,直接上图,一图胜千言:

FlexiViT

顾名思义,FlexiViT,翻译过来不就是灵活ViT 嘛?

Ooo,那怎么体现灵活?我们先回顾下 Vision Transformers 的工作流程。

一句话总结就是,ViT 是一种通过将图像切割成一个个小方块(patch)将图像转换为序列从而输入到Transformer网络进行训练和推理的一种神经网络架构。

本文的重点便是在研究这些小块块对性能的最终影响。通常来说:

  • 方块切的越小,精度会越高,但速度就变慢了;
  • 方块切的越大,精度会降低,但速度就上来了;

So,我们究竟是要做大做强,还是做小做精致?不用急,来自谷歌大脑的研究人员为你揭晓答案:成年人才做选择,老子大小通吃。

正经点,让我们切回来,古哥通过燃烧了数不尽的卡路里向我们证明了,在训练期间随机改变方块的大小可以得到一组在广泛的方块大小范围内表现良好的权重(泛化性能好)。

这结论有什么用?那便是使得在部署时大家可以根据不同的计算预算来调整模型。

通过在以下五大版图进行广泛的投资,可以清晰的发现收益率远超沪深300:

  • 图像分类
  • 图像-文本检索
  • 开放世界检测
  • 全景分割
  • 语义分割
为了照顾下你们这些散(韭)户(菜),古哥说你们可以将它任意添加到大多数依赖ViT骨干架构的模型来实现计算自由,即模型可以根据不同的计算资源调整自己的工作方式,从而获得更好的性能和效率。

说了这么多,怎么做?直接把代号都发给你了,明天早盘直接梭哈即可:

看到看到这里了,总不能白嫖吧?点个赞友情转发下再走咯~~~


FlexiViT论文和代码下载


后台回复:FlexiViT,即可下载上面论文和代码


Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
日本到底有多缺新生儿?看这大大小小的生育补贴就知道了…NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++《降临》作者特德·姜:ChatGPT是网上所有文本的模糊图像NeurIPS 2022 | 中科院&图森未来提出FSD:全稀疏的3D目标检测器Flexible VC:微型风投的稳健增长模式文具盒大小的打印机,自带3亿+题库,印试卷、打错题,方便!|种草机谷歌提出DreamBooth:新扩散模型!只需3张图一句话,AI就能定制照片级图像!其名“三立” :三次倒下,三次站立Jetstar推出Fly a Friend for FREE活动!机票买一送一!特别适合跟小伙伴或者伴侣一起度假Home Assistant:谷歌助理、Alexa 和 Siri 的开源替代品 | Linux 中国ChatGPT版必应被华人小哥攻破,一句话「催眠」问出所有Prompt中西文明的交流与撞击华罗庚 并不如意的人生FastTrack Universität 2023莱比锡大学公立语言项目招生简章Wordbook:适用于 GNOME 的离线英语词典应用 | Linux 中国最大的ViT来了!谷歌提出ViT-22B:视觉Transformer扩展到220亿参数文具盒大小的打印机,不插电不耗墨,打一张仅一毛!必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?田渊栋等人提出Re^3:一种自动生成长故事的模型【万圣节】暖场 《可念不可说》+故事和字谜提高产量的新工具:川农研究组揭示作物「源库流」分子机制,找到调控水稻灌浆期与籽粒大小的基因颠覆三观!谷歌最新研究:用性能差的模型计算「相似度」反而更准?巴掌大小的放松神器,“一枪”下去,全身都爽为什么适用于Python的TensorFlow正在缓慢消亡鬼才设计!这个耳钉大小的「骨头耳机」,耳朵都听怀孕了!太绝了超越BEiT-3!谷歌提出多模态大模型PaLI:刷新多个数据集SOTA!案例 | Flexport:供应链的科技管理者突发!Kennedy/Finch大车祸!车撞飞底朝天!华人网友吓呆!公车亭都撞没了2023招聘季 | Apple (US) ​少量放出Full Time岗位!为小事吵架,警察上门,可能还要上庭Axie Infinity通过Google Play审核,没有P2E功能、还算Web3么?信用卡推荐 | 入门必备 Chase Freedom Family - Unlimited & Flex偏爱留学生|TELEFLEX泰利福春招管培生项目,医药外企,21届可投立省!COSTCO新清仓来了,斯佳唯婷直降¥300,还有Puma内衣上新,该出手了!安·兰德:真理并不属于所有人,而是仅仅属于寻找它的人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。