Redian新闻
>
MOAT项目原作解读:强大的可扩展视觉骨干网络

MOAT项目原作解读:强大的可扩展视觉骨干网络

公众号新闻

机器之心最新一期线上分享邀请到了约翰霍普金斯大学计算机系博士生杨程麟,为大家解读他们近期的工作 MOAT。

本次分享的工作 MOAT (收录于 ICLR2023)是一系列基于移动卷积(即倒数残差模块)和注意力机制的神经网络。与目前将单独的移动卷积和 Transformer 模块堆叠在一起的工作不同,该工作有效地将它们合并成 MOAT 模块。从标准 Transformer 模块开始,该工作将其多层感知器替换为移动卷积,并重新排列其在注意力操作之前。移动卷积不仅增强了网络的表征能力,还生成了更好的下采样特征。该工作概念简单的 MOAT 网络出人意料地展现出高性能,在 ImageNet-1K / ImageNet-1K-V2 上仅用 ImageNet-22K 预训练的情况下,达到了 89.1% / 81.5% 的 top-1 准确率。

此外,MOAT 可以通过将全局注意力转换为窗口注意力,无缝地应用于需要大分辨率输入的下游任务。由于移动卷积有效地在像素之间交换局部信息(从而跨越窗口),MOAT 不需要额外的窗口移动机制。因此,在 COCO 目标检测中,MOAT 使用 227M 模型参数(单尺推理,hard NMS)达到了 59.2% box AP,在 ADE20K 语义分割中,MOAT 使用 496M 模型参数(单尺度推理)达到了 57.6% mIoU。

最后,通过简单地减小通道数量获得的 tiny-MOAT 系列也令人惊讶地超越了针对移动设备设计的 Transformer 模型,Mobile-Former 和 MobileViT。Tiny-MOAT 系列还在下游任务上进行了基准测试。该工作希望简单而有效的 MOAT 能启发更多卷积和注意力机制的无缝集成。代码公开可用。

分享主题:MOAT:强大的可扩展视觉骨干网络

分享嘉宾:杨程麟,约翰霍普金斯大学计算机系博士生,导师是 Bloomberg 杰出教授 Alan Yuille。研究方向为计算机视觉和人工智能,包括视觉骨干网络设计,知识蒸馏和强化学习。目前以第一作者身份在计算机视觉以及机器学习顶级会议上发表过多篇论文。

分享摘要:本次分享将首先从微观角度介绍 MOAT 模块结合移动卷积和注意力机制的设计原理,其次从宏观角度介绍 MOAT 系列在不同计算尺度下的设计结构,包括tiny-MOAT 系列。最后,本分享将展示 MOAT 以及 tiny-MOAT 系列在上游和下游任务上的 SOTA 性能。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/moat

2)论文链接:

https://arxiv.org/abs/2210.01820

3)代码仓库:

https://github.com/google-research/deeplab2/blob/main/model/pixel_encoder/moat.py


加群看直播
直播间关注机器之心机动组视频号,北京时间 2 月 6 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「MOAT」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架孟晚舟将首次出任华为轮值董事长/ 百度All in类ChatGPT项目/ 知乎因ChatGPT大涨50%…今日更多新鲜事在此英特尔发布第四代至强可扩展处理器:PyTorch 训练性能提升 10 倍,安装量超 1 亿颗!​AAAI 2023 | 利用脉冲神经网络扩展动态图表示学习微软推出VS扩展,可快速升级.NET项目MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型我们与黄河的爱恨情仇九大投行|UBS 2023 Graduate Talent项目正在招聘中!专业不限!TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测AudioLDM一作解读:文本生成高质量音频,单GPU即可最大的ViT来了!谷歌提出ViT-22B:视觉Transformer扩展到220亿参数4个令人惊艳的ChatGPT项目,开源了!AIGC也太猛了...8点1氪:​抖音否认3月1日全国上线外卖服务;百度类ChatGPT项目定名“文心一言”;任天堂将全体员工基本工资统一上调10%至强秘笈看过来!一图读懂第四代英特尔® 至强® 可扩展处理器ELITE项目原作解读:基于扩散模型的快速定制化图像生成ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源早鸟报|抖音回应上线全国外卖服务;百度类ChatGPT项目定名“文心一言”;美团一季度拟招1万人...SparK项目原作解读:卷积模型的首个BERT预训练可扩展、可解释,新框架从预训练语言模型中高效提取知识图谱UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型【广发策略】两会解读:质升量稳—2023年两会政府工作报告解读其实软件(CS)的技术含量是比较低的FastTrack Universität 2023莱比锡大学公立语言项目招生简章美国马球协会官方认可,POLO速干网眼T恤~商务运动休闲都适合!融情于文的好作品Galvatron项目原作解读:大模型分布式训练神器,一键实现高效自动并行Transformer如何做扩散模型?伯克利最新《transformer可扩展扩散模型》论文家长应该从什么时候开始尊重孩子的选择?我与骗子过招摩托罗拉 rizr曝光,卷轴屏设计、可扩展至6.5英寸DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务赵越@卡内基梅隆大学:自动和可扩展的异常检测ICLR 2023 | 清华大学龙明盛组提出通用时间序列神经网络骨干—TimesNet系列解读:深度时空视觉表征学习方法及应用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。