Redian新闻
>
CVPR 2023 | 即插即用!BRA:新注意力,BiFormer:一种视觉新主干

CVPR 2023 | 即插即用!BRA:新注意力,BiFormer:一种视觉新主干

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】微信技术交流群

转载自:CVHub

Title: BiFormer: Vision Transformer with Bi-Level Routing Attention
Paper: https://arxiv.org/abs/2303.08810
Code:  https://github.com/rayleizhu/BiFormer

导读

众所周知,Transformer相比于CNNs的一大核心优势便是借助自注意力机制的优势捕捉长距离上下文依赖。正所谓物极必反,在原始的 Transformer 架构设计中,这种结构虽然在一定程度上带来了性能上的提升,但却会引起两个老生常态的问题:

  1. 内存占用大
  2. 计算代价高

因此,有许多研究也在致力于做一些这方面的优化工作,包括但不仅限于将注意力操作限制在:

  • inside local windows, e.g., Swin transformer and Crossformer;
  • axial stripes, e.g., Cswin transformer;
  • dilated windows, e.g., Maxvit and Crossformer;
Figure 1. Vanilla attention and its sparse variants.

让我们先简单的看下上图:其中图(a)是原始的注意力实现,其直接在全局范围内操作,导致高计算复杂性和大量内存占用;而对于图(b)-(d),这些方法通过引入具有不同手工模式的稀疏注意力来减轻复杂性,例如局部窗口、轴向条纹和扩张窗口等;而图(e)则是基于可变形注意力通过不规则网格来实现图像自适应稀疏性;

总的来说,作者认为以上这些方法大都是通过将 的稀疏性引入到注意力机制来试图缓解这个问题。因此,本文通过双层路由(bi-level routing)提出了一种新颖的动态稀疏注意力(dynamic sparse attention ),以实现更灵活的计算分配内容感知,使其具备动态的查询感知稀疏性,如图(f)所示。

此外,基于该基础模块,本文构建了一个名为BiFormer的新型通用视觉网络架构。由于 BiFormer 以查询自适应的方式关注一小部分相关标记,而不会分散其他不相关标记的注意力,因此它具有良好的性能和高计算效率。最后,通过在图像分类、目标检测和语义分割等多项计算机视觉任务的实证结果充分验证了所提方法的有效性。

方法

Bi-Level Routing Attention

为了缓解多头自注意力(Multi-Head Self-Attention, MHSA)的可扩展性问题,先前的一些方法提出了不同的稀疏注意力机制,其中每个查询只关注少量的键值对,而非全部。然而,这些方法有两个共性问题:

  1. 要么使用手工制作的静态模式(无法自适应);
  2. 要么在所有查询中共享键值对的采样子集(无法做到互不干扰);

为此,作者探索了一种动态的、查询感知的稀疏注意力机制,其关键思想是在粗糙区域级别过滤掉大部分不相关的键值对,以便只保留一小部分路由区域(这不就把冗余的信息干掉了吗老铁们)。其次,作者在这些路由区域的联合中应用细粒度的token-to-token注意力。

整个算法的伪代码流程如下所示:

可以看到,整个模块主要包含三个组件,即:

  • Region partition and input projection
  • Region-to-region routing with directed graph
  • Token-to-token attention

简单梳理下。假设我们输入一张特征图,通过线性映射获得QKV;其次,我们通过领接矩阵构建有向图找到不同键值对对应的参与关系,可以理解为每个给定区域应该参与的区域;最后,有了区域到区域路由索引矩阵 ,我们便可以应用细粒度的token-to-token注意力了。

具体的实现还是有些复杂,可以参考代码慢慢理解,笔者这里看的也是云里雾里的。

Bi-Level Routing Attention

上面是 BRA 模块的示意图。从图中可以看出,该方法是通过收集前 k 个相关窗口中的键值对,并利用稀疏性操作直接跳过最不相关区域的计算来节省参数量和计算量。值得一提的是,以上操作涉及 GPU 友好的密集矩阵乘法,利于服务器端做推理加速。

BiFormer

基于BRA模块,本文构建了一种新颖的通用视觉转换器BiFormer。如上图所示,其遵循大多数的vision transformer架构设计,也是采用四级金字塔结构,即下采样32倍。

具体来说,BiFormer在第一阶段使用重叠块嵌入,在第二到第四阶段使用块合并模块来降低输入空间分辨率,同时增加通道数,然后是采用连续的BiFormer块做特征变换。需要注意的是,在每个块的开始均是使用 的深度卷积来隐式编码相对位置信息。随后依次应用BRA模块和扩展率为 的 2 层 多层感知机(Multi-Layer Perceptron, MLP)模块,分别用于交叉位置关系建模和每个位置嵌入。

上表展示了不同模型变体的网络宽度和深度。其中FLOP是基于 输入计算的。

实验

Table 2. Comparison of different backbones on ImageNet-1K.

所有模型都在分辨率为 的图像上进行训练和评估。其中星号表示该模型是使用标记标签进行训练的。据笔者所知,这是在没有额外训练数据或训练技巧所能取得的最佳结果。此外,使用基于标记的蒸馏技术,BiFormer-S的准确率可以进一步提高到 !

可以看到,本文方法貌似对小目标检测效果比较好。这可能是因为BRA模块是基于稀疏采样而不是下采样,一来可以保留细粒度的细节信息,二来同样可以达到节省计算量的目的。

为了进一步了解双层路由注意力的工作原理,作者将路由区域和注意力响应进行可视化。从图中我们可以清楚地观察到语义相关区域已被成功定位。例如,在第一个场景中的街景所示,如果查询位置在建筑物或树上,则对应的路由区域覆盖相同或相似的实体。而在第二个室内场景中,当我们将查询位置放在鼠标上时,路由区域包含主机、键盘和显示器的一部分,即使这些区域彼此不相邻。这意味着双层路由注意力可以捕获远距离对上下文依赖。

总结

本文提出了一种双层路由注意力模块,以动态、查询感知的方式实现计算的有效分配。其中,BRA模块的核心思想是在粗区域级别过滤掉最不相关的键值对。它是通过首先构建和修剪区域级有向图,然后在路由区域的联合中应用细粒度的token-to-token注意力来实现的。值得一提的是,该模块的计算复杂度可压缩至 !最后,基于该模块本文构建了一个金字塔结构的视觉Transformer——BiFormer,它在四种流行的视觉任务、图像分类、目标检测、实例分割和语义分割方面均表现出卓越的性能。

点击进入—>【Transformer】微信技术交流群


最新CVPP 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKeyICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架国际要闻简报,轻松了解天下事(03CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合天赋“易昺(bǐng)”,创造历史!亲友重来 蓬荜生辉 陈湃(巴黎)转:2023 回国探亲(5)ICRA 2023 | CurveFormer:基于Transformer的3D车道线检测新网络总听到老师说“孩子注意力不集中”?这几个游戏能帮助提高孩子注意力!Eruope 2023CVPR 2023 | 开源了!一种通用的视频闪烁去除方法明天直播|CVPR 2023 论文分享会邀你共话计算机视觉的前沿发展!CVPR 2023 | MobileOne:移动端仅需1ms的高性能主干!超越MobileViT!匹兹堡记事 - 2022.12.26 陕西面馆清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!七絶 瑞兔呈祥寄望癸卯CVPR 2023 | 即插即用!SQR:对于训练DETR-family目标检测的探索和思考顶刊TIP 2023!CFP:即插即用的多尺度融合模块,助力检测分割任务有效涨点!2023 除夕夜,简单的年夜饭和这两天吃喝Transformer:一种图灵完备的神经网络交通主干道+地下管线主干路,这条新建地下综合管廊可从闵行直达浦东、奉贤中心区域!大脑视觉信号被AI复现图像!CVPR最新研究!CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型即插即用!Apple新作FastViT: 又快又强的视觉Transformer,端侧部署无压力!清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法请带走,一整套即插即用的OKR使用手册2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一ICLR 2023 | DIFFormer: 扩散过程启发的TransformerCVPR 2023 | EMA-VFI: 基于帧间注意力提取运动和外观信息的高效视频插帧CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述品尝玫瑰的浪漫CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会2023 春 祝姐妹们周末快乐!CVPR 2023 论文分享会|精彩抢先看:视觉 + X(Visual + X)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。