Redian新闻
>
CVPR 2024 大核卷积杀回来了!101x101大核!PeLK:高效大核卷积网络

CVPR 2024 大核卷积杀回来了!101x101大核!PeLK:高效大核卷积网络

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

最近,有一些大型内核卷积网络的研究,但考虑到卷积的平方复杂度,扩大内核会带来大量的参数,继而引发严重的优化问题。受人类视觉的启发,论文提出了外围卷积,通过参数共享将卷积的复杂性从 降低到 ,有效减少 90% 以上的参数数量并设法将内核尺寸扩大到极限。在此基础上,论文提出了参数高效的大型内核网络(PeLK),将CNN的内核大小扩展到前所未有的,性能也在持续提升。

来源:晓飞的算法工程笔记 公众号

论文: PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution

  • 论文地址:https://arxiv.org/abs/2403.07589

Introduction


ViT的强大性能归因于其巨大的感受野,在自注意力机制的帮助下可以从大的空间范围捕获上下文信息并建模远程依赖关系。受此启发,CNN的最新进展表明,当配备大内核(例如 )时,纯CNN架构在各种视觉任务上的表现可以与最先进的ViT相当甚至更好。

  虽然大核卷积网络表现出强大的性能和吸引人的效率,但其相对于核大小 的平方复杂度 会带来大量的参数。例如, 内核的参数比 内核的参数大 100 倍以上。为了解决这一问题:

  • RepLKNet将大内核重参数化为并行的 内核,从而弥补优化问题。
  • SLaK妥协地使用条带卷积将复杂度降低为线性,并扩展到 (即 )。

  然而,这对于下游任务的分辨率来说仍然是有限的交互范围(例如ADE20K上的 )。此外,条带卷积缺乏密集卷积的范围感知,可能会破坏模型的空间感知能力。

  论文先在统一的现代框架(即SLaK)下对卷积形式进行了全面的剖析,验证了密集网格卷积在不同内核大小下均优于条带卷积的猜想。这种现象不仅适用于分类任务,而且适用于下游任务,这表明密集卷积相对于条带形式的本质优势。然而,大密集卷积的平方复杂度导致参数激增阻碍其进一步缩放,是个亟需解决的问题。

  与卷积或自注意力的密集计算不同,人类视觉拥有更高效的视觉处理机制,称为周边视觉。具体来说,人类视觉根据到注视中心的距离将整个视野分为中心区域和周边区域,并且中心区域的感光细胞数量是周边区域的100倍以上。这样的生理结构赋予了人类视觉具有模糊感知的特点:中心区域感知力强,看得很清楚,能识别形状和颜色;而在外围区域,视野变得模糊,分辨率降低,只能识别抽象的视觉特征,例如运动和高级上下文。这种机制使人类能够仅通过一小部分视野()即可感知重要细节,同时最大限度地减少剩余部分()中不必要的信息,从而促进人脑的高效视觉处理。

  受人类视觉的启发,论文提出一种新颖的外围卷积,将卷积的参数复杂度从 降低到 ,同时保持密集的计算形式。外围卷积由三种设计组成:

  • 聚焦和模糊机制。在卷积核的中心区域保留细粒度的独立参数,在外围区域则使用大范围的共享参数。
  • 呈指数级增加的共享粒度。共享网格以指数级增长的方式增长,这比固定粒度更有效。
  • 内核级位置嵌入。引入内核级位置嵌入,以优雅且廉价的方式解决因大范围的外围共享而导致的细节模糊问题。

  基于外围卷积,论文提出了参数高效的纯CNN大型内核网络(PeLK),其有效感受野(ERF)与参数量呈指数增长。在精心设计的参数共享机制的帮助下,PeLK以非常小的参数成本扩展了内核大小,实现了极大的密集内核(例如 ),并具有持续的改进。PeLK在各种视觉任务中实现了最先进的性能,在配备极大的内核尺寸时展示了纯CNN架构的潜力。

PeLK被证明能够覆盖比之前的大型内核模型更大的ERF区域,这是其强大的性能所在。更有趣的是,论文的实验分析和消融实验表明,外围卷积的最佳设计原理与人类视觉具有惊人的相似性,这表明受生物学启发的机制可以成为设计强大的现代网络的有希望的候选者。

Dense Outperforms Stripe Consistently


  论文通过SLaKRepLKNet研究密集网格卷积是否比条纹卷积更好,先在ImageNet训练得到预训练模型,然后将预训练模型作为UperNet的主干网络在ADE20K上进行训练和对比。

SLaK通过两个步骤将内核扩大到 :1) 将大内核分解为两个并行的矩形内核;2)使用动态稀疏性并扩大网络宽度。为了彻底分析卷积形式的效果,论文进行了带稀疏性和不带稀疏性的实验。默认情况下,像SLaKRepLKNet所采取的方法,重参数化 卷积来缓解优化问题。表 1 的结果表明,无论动态稀疏性如何,密集网格卷积都超过了条带卷积。

  论文进一步探索不同内核大小下的卷积形式(即 ),将SLaK的条带卷积的短边固定为 5 作为默认设置(),然后逐渐将 从 51 减少到 7。期间不使用动态稀疏性,方便对卷积形式进行纯粹的对比。如图 2 所示,密集网格卷积在多个内核尺寸下始终优于条带卷积,并且增益随着内核尺寸的增加而增加,这表明密集网格大内核卷积的本质优势。

  但是,密集网格卷积的平方复杂度会导致参数量激增。如图 2 所示,条带卷积的内核从 7 放大到 51 只会带来 参数,而密集卷积则为 。考虑到人类的周边视觉中外围区域只有少量的感光细胞,论文认为密集参数对于外围区域的相互作用不是必需的。受此启发,论文寻求通过引入周边视觉机制来降低参数复杂度,同时保留密集计算以保持密集卷积的强大性能。

Parameter-efficient Large Kernel Network


Peripheral Convolution

  标准的2D卷积核由4D向量组成:,其中 为输入通道数, 为输出通道数, 为空间核维度。论文通过空间参数共享来将 参数化为更小的内核 ,其中

  首先,定义共享网格 ,其中 。根据 ,将 位置划分为 区域:

  为了简洁起见,规定 。对于任意位置 ,设置 。这样就可以利用一个小核来参数化一个大核,实现空间上的参数共享,如图 1a 所示。

  接下来进行下一步升级,将共享网格重新表示为轴对称形式:,其中 ,为 的核半径。

  类似于人类的周边视觉,共享网格主要由两个核心设计组成:

  • 聚焦和模糊机制。如图 1b 所示,将细粒度参数保留在卷积核的中心区域,其对应共享网格设置为 1 (即不共享)。对于外围区域,利用大范围参数共享来探索外围视觉的空间冗余。
  • 呈指数级增加的共享粒度。受人类视觉的启发,论文设计了以指数级的方式增长的共享网格。这种设计可以优雅地将卷积的参数复杂度从 降低到 ,从而可以进一步扩大密集卷积的内核大小。具体来说,共享网格 的构造如下:


  其中 是中心细粒度区域的半径, 是指数增长的基数,默认设置为 2。

Kernel-wise Positional Embedding

  尽管外围卷积能够有效地减少密集卷积的参数,但大范围的参数共享可能导致外围区域的局部细节模糊。尤其当内核大小以外围卷积的形式放大到 50 以上甚至 100 以上时,这种现象会进一步放大,单个参数需要处理 甚至 外围区域。

  为了解决这个问题,论文提出了基于内核的位置嵌入。给定一组输入特征 ,通过权值为 的卷积来处理这些特征。使用trunc normal来初始化位置嵌入

  输出位置 处的卷积计算为:

  其中 是输出, 是内核 的半径,设置为

  如图 3 所示,通过引入位置嵌入,可以区分共享区域中的特定位置,从而弥补共享带来的局部细节模糊的问题。实际上,这可以被视为向输入特征添加相对位置信息的偏置。值得注意的是,同一个阶段中的所有内核共享相同的位置嵌入 ,因此 带来的额外参数可以忽略不计。这种设计以一种廉价而优雅的方式解决了由于共享权重而导致的位置不敏感问题,特别是对于非常大的内核。

Partial Peripheral Convolution

  大型内核卷积网络已被证明具有高度通道冗余性,非常适合进行稀疏化。外围卷积使得论文能够设计具有更强空间感知能力的大型密集卷积,因此可以进一步优化大卷积的通道冗余。

  论文引入了一种Inception风格的设计,其中只有特征图的部分通道将通过卷积进行处理。整体设计遵循一个简单的理念:更多的恒等映射来优化通道冗余。具体来说,对于输入 ,沿着通道维度将其分为两组,

  其中 是卷积分支的通道数,默认设置为 。然后将分割后的输入分别输入外围卷积和恒等映射:

  最后,将两个分支的输出连接起来以恢复原始形状:

  这种设计可以看作是Inception类型结构的特例,如InceptionShufflenetInceptionNeXt。他们在并行分支中使用不同的运算符,而论文采用更简单的设计:仅外围卷积和恒等映射。这种设计非常适合具有极大内核的外围卷积,可显著减少FLOP而不会产生降低性能。

Architecture Specification

  基于上述设计和观察,论文设计了参数高效的大型内核网络(PeLK)的架构,按照ConvNeXtSLaK来构建多种尺寸的模型:

  • 采用了 4 阶段的框架。
  • stem 包含一个 内核和 4 步幅的卷积层。
  • 对于tinysmall/base大小的模型,各阶段的块数量是分别为
  • 不同阶段的内核大小默认为 。对于PeLK-101,内核大小放大至
  • 默认情况下,保持中心 区域作为细粒度。对于PeLK-101,中心区域则放大到
  • 遵循SLaK的设计,使用动态稀疏性来增强模型容量,所有超参数设置相同( 网络宽度,40% 稀疏度)。

Experiments


  对于语义分割,在ADE20K上评估PeLK作为主干网络的效果。

  对于目标检测/分割,在MS-COCO上使用Cascade Mask R-CNN进行实验。

  对于图像分类,在ImageNet-1K上进行对比。

  表 5 展示不同共享粒度的性能对比。由于网格是轴对称的,表格中仅表示半个网格。

  表 6 展示了不同中心细粒度内核大小的性能对比。

  表 7 展示了不同内核大小配置的性能对比。

  图 4 展示不同模型最后一层对输入图片的感受野对比。

  图 5 中对语义分割中使用的PeLK-T架构的FLOP进行详细的分类。

  表 8 中比较了推理吞吐量。

  图 6 展示了内核缩放对模型参数量的影响。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your NoiseCVPR、AAAI、ICLR 2024优秀论文!CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet【Poem Reading Tuesday】all the time I pray to Buddha by Kobayashi两轮游中国 - 我的所见,所闻和所想 阳光明媚的贵阳CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真大三本科生在CVPR 2024上发表论文!CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络2024 初春 二月繁花~CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力还得是抖音,字节推出竖屏视频理解数据集,入选CVPR20242024 Chinese New Year's DinnerCVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTCVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计2024 多伦多国际车展(I)CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型元宵节古都西安叹突发!Fed 今年(2024)不会降息。花街预测CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作有多少学子遭到中共的残酷迫害?CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题"蝙蝠侠"空中加油 - 美军力倍增狗引儿【长篇】(九)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。