MOAT项目原作解读:强大的可扩展视觉骨干网络
机器之心最新一期线上分享邀请到了约翰霍普金斯大学计算机系博士生杨程麟,为大家解读他们近期的工作 MOAT。
本次分享的工作 MOAT (收录于 ICLR2023)是一系列基于移动卷积(即倒数残差模块)和注意力机制的神经网络。与目前将单独的移动卷积和 Transformer 模块堆叠在一起的工作不同,该工作有效地将它们合并成 MOAT 模块。从标准 Transformer 模块开始,该工作将其多层感知器替换为移动卷积,并重新排列其在注意力操作之前。移动卷积不仅增强了网络的表征能力,还生成了更好的下采样特征。该工作概念简单的 MOAT 网络出人意料地展现出高性能,在 ImageNet-1K / ImageNet-1K-V2 上仅用 ImageNet-22K 预训练的情况下,达到了 89.1% / 81.5% 的 top-1 准确率。
此外,MOAT 可以通过将全局注意力转换为窗口注意力,无缝地应用于需要大分辨率输入的下游任务。由于移动卷积有效地在像素之间交换局部信息(从而跨越窗口),MOAT 不需要额外的窗口移动机制。因此,在 COCO 目标检测中,MOAT 使用 227M 模型参数(单尺推理,hard NMS)达到了 59.2% box AP,在 ADE20K 语义分割中,MOAT 使用 496M 模型参数(单尺度推理)达到了 57.6% mIoU。
最后,通过简单地减小通道数量获得的 tiny-MOAT 系列也令人惊讶地超越了针对移动设备设计的 Transformer 模型,Mobile-Former 和 MobileViT。Tiny-MOAT 系列还在下游任务上进行了基准测试。该工作希望简单而有效的 MOAT 能启发更多卷积和注意力机制的无缝集成。代码公开可用。
分享主题:MOAT:强大的可扩展视觉骨干网络
分享嘉宾:杨程麟,约翰霍普金斯大学计算机系博士生,导师是 Bloomberg 杰出教授 Alan Yuille。研究方向为计算机视觉和人工智能,包括视觉骨干网络设计,知识蒸馏和强化学习。目前以第一作者身份在计算机视觉以及机器学习顶级会议上发表过多篇论文。
分享摘要:本次分享将首先从微观角度介绍 MOAT 模块结合移动卷积和注意力机制的设计原理,其次从宏观角度介绍 MOAT 系列在不同计算尺度下的设计结构,包括tiny-MOAT 系列。最后,本分享将展示 MOAT 以及 tiny-MOAT 系列在上游和下游任务上的 SOTA 性能。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/moat
2)论文链接:
https://arxiv.org/abs/2210.01820
3)代码仓库:
https://github.com/google-research/deeplab2/blob/main/model/pixel_encoder/moat.py
微信扫码关注该文公众号作者