Redian新闻
>
ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干

ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【3D目标检测和Transformer】群

作者:胖达憨憨(源:知乎,已授权)| 编辑:CVer公众号

https://zhuanlan.zhihu.com/p/654278001

在CVer微信公众号后台回复:FLA,可以下载本论文pdf和代码
FLatten Transformer: Vision Transformer using Focused Linear Attention
论文:https://arxiv.org/abs/2308.00442
代码(已开源):
https://github.com/LeapLabTHU/FLatten-Transformer

Abstract

自注意力的计算复杂性在将Transformer模型应用于视觉任务时一直是一个持续的挑战。与此相反,线性注意力通过通过精心设计的映射函数来近似Softmax操作,提供了一个计算复杂性为线性的更高效的选择。然而,目前的线性注意力方法要么遭受明显的性能下降,要么引入了来自映射函数的额外计算开销。在这篇论文中,我们提出了一个新颖的“聚焦线性注意”模块,旨在实现高效率和表达能力。具体来说,我们首先从焦点能力和特征多样性两个角度分析了线性注意力性能下降的因素。为了克服这些局限性,我们引入了一个简单而有效的映射函数和一个高效的等级恢复模块,以增强自注意力的表达能力,同时保持低计算复杂性。大量的实验表明,我们的线性注意力模块适用于多种先进的视觉Transformers,并在多个基准测试中均实现了持续改进的性能。

Introduction

近年来,Transformer和自注意力在计算机视觉领域得到了广泛的发展,尤其是随着ViT的出现,自注意力技术在各种视觉任务中都显示出了巨大的潜力。然而,将Transformer应用于视觉模型是一个复杂的任务。与轻量级卷积神经网络相比,自注意力具有O(n^2)的计算复杂性,这在全局感受野中会导致高计算成本。尽管某些方法试图通过限制全局感受野的大小来减轻这一挑战,但这些方法可能会忽视其他区域的信息特征或牺牲建模长距离依赖关系的能力。线性注意力被视为一个简单有效的替代方案,但相对于Softmax注意力,现有的线性注意力方法仍存在性能下降,并可能引入额外的计算开销。在这篇论文中,我们针对现有线性注意力方法的局限性提出了一个新颖的“聚焦线性注意力”模块,该模块旨在实现高效率和高表达能力。我们经验性地验证了我们模块在图像分类、语义分割和目标检测任务上的有效性,并使用五种先进的ViT模型。结果表明,我们的方法相对于所有基线和其他线性注意力方法都有一致的改进。

其中关于token数量的计算复杂度减少到O(N)。

然而,当前的线性注意力方法也面临着模型复杂度与表现力之间的两难选择。一方面,简单的近似,例如使用ReLU激活,过于宽松,导致了明显的性能下降。另一方面,新的核函数或矩阵分解方法可能导致额外的计算开销。总的来说,线性注意力和Softmax注意力之间在实际性能上仍然存在差距。

在CVer微信公众号后台回复:FLA,可以下载本论文pdf和代码

Focused Linear Attention

尽管线性注意力具有线性的计算复杂度,但是多个之前的研究已经证明,简单地将Softmax注意力替换为线性注意力通常会导致严重的性能下降。在这一部分,我们首先从两个角度:聚焦能力和特征多样性,对线性注意力的性能进行详细分析。接着,我们介绍我们的“Focused Linear Attention”(专注线性注意力)方法,这一方法充分地解决了这些问题,并实现了高效率和高表达能力。

聚焦能力

实际上,Softmax注意力提供了一个非线性的重新加权机制,这使得它能够很容易地集中于重要的特征。如图3所示,Softmax注意力的注意力分布图在某些区域特别明显,例如前景物体。相比之下,线性注意力的分布相对平滑,使其输出更接近所有特征的平均值,并未能集中在更具信息性的区域。

为了解决这一问题,我们提出了一个简单但有效的解决方案,通过调整每个查询和关键特征的方向,使相似的Query-Key对更接近,而将不相似的Query-Key对推远。具体地说,我们提出了一个名为“Focused Function”(专注函数)的简单映射函数 fp :

详细通俗的解释如下:

1. 背景

Softmax注意力线性注意力是两种不同的计算注意力权重的方法。其中,Softmax注意力有一个优势,它可以非常明确地关注于某些特定的特征(例如图像中的某个目标)。但是,直接用线性注意力替代Softmax注意力通常会导致性能下降,原因之一是线性注意力的输出往往更加平滑,不能很好地突出那些重要的特征。

2. 焦点能力

这里提到的焦点能力是指注意力模型的能力,能够集中关注于输入特征中的某些重要部分,而不是给所有特征平均的关注度。例如,如果我们要处理一张有猫的图片,那么Softmax注意力可能会更多地关注猫的位置,而线性注意力可能会更均匀地关注整张图片。

3. 专注函数 fp 

为了解决线性注意力的这个问题,作者提出了一个叫做专注函数 fp 的新方法。这个函数的目的是调整每个Query和Key特征的方向,使相似的Query-Key对更接近,而不相似的Query-Key对更远。

给定两个特征 x和 y
 ,如果它们的最大值在同一位置(即 m=n ),那么经过这个函数处理后,它们的内积(也可以理解为相似度)会比原来更大。如果它们的最大值不在同一位置,则它们的内积会比原来更小。

4. 为什么要这样做?

通过这样的调整,我们可以使相似的Query-Key对之间的相似度变得更高,而不相似的Query-Key对之间的相似度变得更低。这样做的结果是,我们得到了一个更加“尖锐”的注意力分布,类似于Softmax注意力的分布。例如,使用这个函数处理后,图像中的猫可能会得到更高的关注度,而背景部分可能会得到更低的关注度。

Feature diversity

本文继续讨论了线性注意力(Linear Attention)在ViT(如 DeiT-Tiny 和 Swin Transformer)中的局限性,并提出了一个解决方案。

线性注意力的局限性

1. 注意力矩阵的秩(Rank): 在传统的Transformer模型中,注意力矩阵的秩通常是满秩的(full rank),这意味着该矩阵具有很高的特征多样性。这有助于更精确地聚合来自值(Values)的特

--- 总结 ---

Focused linear attention module

Focused Linear Attention模块

基于上述分析,文章提出了一个名为Focused Linear Attention的新型线性注意力模块。该模块在保持表达能力的同时减少了计算复杂性。

Focused Linear Attention模块的数学表达为:

在CVer微信公众号后台回复:FLA,可以下载本论文pdf和代码

点击进入—>【目标检测和Transformer】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!第3年那1年内每100辆车有多少毛病ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干8年了,Transformer注意力机制一直有Bug?最近看的几个烧脑的电影刷榜13个暗光增强基准!清华大学联合ETH等开源Retinexformer:亮、暗都有细节 | ICCV 2023ICCV 2023 | 浙大&阿里提出:基于Transformer的可泛化人体表征来了!屠榜CVPR!Transformer视频教程发布华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报Transformer是唯一选择吗?无Attention和MLP的语言模型反而更强了一日登三峰 2023.07.29让注意力提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升!让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升ChatGPT危了!注意力机制的神秘bug曝光!Transformer模型恐大受冲击...PyTorch最新工具mm来了!3D可视化矩阵乘法、Transformer注意力!Attention机制竟有bug?Softmax是罪魁祸首,影响所有TransformerChatGPT危了!「注意力公式」8年神秘bug首曝光,Transformer模型恐大受冲击基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计ICCV 2023 | token过度聚焦暴露注意力机制弱点,两种模块设计增强视觉Transformer鲁棒性《孙子兵法》,中国军师和非洲军阀ICCV 2023 | 金连文团队提出:从数据角度重新审视场景文字识别ViLT: 没有卷积和区域监督的视觉-语言Transformer模型重瓣天竺葵,美丽大爆炸ICCV 2023 | 清华、ETH提出Retinexformer,刷新十三大暗光增强榜《别君叹》&《爱人先爱己》全新注意力算法PagedAttention:LLM吞吐量提高2-4倍,模型越大效果越好UTMB 越野三登雪山 Mt. Shasta 2023.07.08NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型ICCV 2023 | 傅里叶算子高效Token Mixer:轻量级视觉网络新主干微博(24)—起早NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法Transformer矩阵成真!Pytorch最新工具mm,3D可视化矩阵乘法、Transformer注意力如何降低视觉Transformer计算成本?时间冗余方法让人大吃一惊Attention机制竟有bug,Softmax是罪魁祸首,影响所有TransformerTransformer论文「重磅更新」!八子全部离职,谷歌删除Attention Is All You Need所有作者邮箱ICML 2023 | UPop: 使用统一渐进剪枝压缩视觉-语言TransformersTexas Sunshine 2023斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。