Redian新闻
>
ECCV 2022 | 港中文MMLab:基于Transformer的光流

ECCV 2022 | 港中文MMLab:基于Transformer的光流

科技


©PaperWeekly 原创 · 作者 | Zhaoyang Huang

单位 | 香港中文大学MMLab

研究方向 | 视觉关联性学习


Transformer 今年在图像领域展现出了很好地性能,相比于 CNN,它们的优势之一是基于注意力机制的长程建模能力。本文解读港中文 MMLab 在 ECCV 2022 上发表的论文《FlowFormer: A Transformer Architecture for Optical Flow》。这项工作提出了 FlowFormer 算法将 Transformer 结构结合进光流估计的框架中,显著提升了光流估计的性能。

只在 FlyingChairs+FlyingThings 上训练后,FlowFormer 在 Sintel Training 的 clean 与 final 两个子集中分别取得了 0.64 与 1.50 AEPE。与之前发表的最好结果(1.29 和 2.74)相比,误差下降了 50.4% 和 45.3%,体现了其卓越的泛化性。在公开的 Sintel benchmark(test)上,FlowFormer  在clean 和 final 两个子集中取得了 1.159 和 2.088 AEPE,降低了此前发表的最优误差(1.388 和 2.47)达 16.5% 和 15.5%。



论文标题:

FlowFormer: A Transformer Architecture for Optical Flow

收录会议:

ECCV 2022

论文主页:

https://drinkingcoder.github.io/publication/flowformer/





论文介绍

光流的目标是估计源图像中每个像素在目标图像的对应位置,在许多下游任务,如动作识别、视频修复、视频超分等任务中提供重要输入。本文首先简要介绍 RAFT。RAFT 先使用一个孪生 CNN 从一对 H x W 图像中抽取视觉特征,为所有像素对计算特征相似性形成一个 H x W x H x W 的 4D cost volume,然后使用一个卷积循环神经网络(Conv-GRU)从这个 cost volume 中获取特征,不断优化光流估计。

FlowFormer 基于 RAFT 的思想,探索了使用 Transformer 对其进行全方位改进,包含了以下重要模块:1)Alternate-Group Transformer (AGT)层,将 4D cost volume 投影至隐空间编码为cost memory;2) Recurrent Transformer Decoder,使用 dynamic positional cost query 循环的从 cost memory 中提取信息来优化光流估计;3)首次验证了使用 ImageNet 预训练的 Transformer 来编码图像特征可以提升光流估计性能。



光流估计中我们一般假设两幅图像中相应位置的外表不变,因此传统算法中光流被建模为优化问题,即在一些正则项约束下寻找两张图像中的对应位置使得对应位置的视觉相似性最大化。这种思想在深度学习时代也是针对光流估计的网络架构基本原则之一,表现为计算两张图像的视觉相似性(costs),学习编码 costs 并从中解码出光流向量。这在光流学习的标杆架构 PWC-Net 和 RAFT 中都得到了充分体现。

相比于 CNN,Transformer 破除了局部偏差(locality bias)并能进行长程建模。PerceiverIO 开创性的使用纯 Transformer 来学习光流估计,它直接对图像像素 tokenization 并用一个通用的输入-输出映射来学习光流估计。由于它没有用任何针对光流的信息,如视觉相似性,因此其需要大量的参数参数和训练数据来学习(约 80 倍的 RAFT 训练数据量)。因此我们提出一个问题:我们能否同时获益于 Transformer 的长程建模能力并从视觉相似性信息中估计光流?针对这个问题,该论文提出了 FlowFormer。




算法细节

AGT Cost Encoder:一种最简单的使用 Transformer 来编码 4D cost volume 的方法是直接将其转化为 cost token 后使用标准的 Transformer,如将每个 3 x 3 x 3 x 3 的 cost 通过 mlp 提取为 token,但是由于该策略在 4D cost volume 上会产生上千个 2D token,因此其占用的显存和算力都是不可接受的。

该论文观察到,对每个像素而言,光流估计的信息来源是当前像素与目标图像中所有像素的相似性,即 H x W 的 cost map。因此将每个像素的 cost map 投到同一个隐空间中形成 K 个 token,即从 H x W x H x W 的 4D cost volume 转化成H x W x K 个 token,其中每个 token 维度为 D。在此基础上我们使用轮换分组(alternate-group)Transformer 对这些 token 进行编码。

具体来说,FlowFormer 进行两种分组:第一种有 H x W 组,每组 K 个 token,这样每组对应一个原图中的像素而组内 token 编码了该像素对应的 cost map 信息;第二种有 K 组,每组 H x W 个 token,这样每组对应一种隐空间特征而组内 token 编码了所有原图像素的该特征。

AGT 轮流使用这两种分组,对组内的 token 使用 Transformer 编码,这样信息可以在所有 token 之间进行传播但算力相比同时对所有 token 使用 Transformer 又大幅下降。我们使用了三层 AGT,最终得到 H x W x K 个 token,并将其作为编码后的 cost memory。


Recurrent Transformer Decoder with Dynamic Positional Cost Query:FlowFormer 迭代的使用当前估计的光流从 H x W x K cost memory 中来提取信息优化光流估计:
1. 根据当前的光流估计生成 Query(Dynamic Positional Cost Query),具体来说,给定一个源图像素的位置 与当前估计的光流 ,我们可以计算得到该像素对应到目标图的 位置以及该位置的 9 9 的局部 cost;
2. 根据 cost memory 生成 Key () 和 Value ());
3. 使用注意力机制提取信息



然后从得到的信息估计 f(x) 来优化光流估计:。该论文参考 RAFT 的机制使用循环卷积神经网络不断迭代优化光流估计。
4. 使用预训练的 Transformer 来提取图像特征:在目前的 Transformer 架构中,Twins-SVT 对图像尺寸的变化敏感性较低,相比于经典的 ViT 需要的算力较小,因此 FlowFormer 使用 Twins-SVT Large 的前两个阶段来提取图像特征,并使用 ImageNet 预训练的参数来初始化网络。




实验效果
该论文在 Sintel 和 KITTI 两个数据集上评测 FlowFormer。Sintel 有两个子集:clean 子集与 Final 子集的内容相同,但是 Final 子集中的图像存在运动模糊往往更为困难。



泛化性:在 FlyingChairs 于 FlyingThings(C+T)上训练,在 Sintel 与 KITTI 的训练集上计算光流误差,这种方法能评测光流模型的泛化性。如上表所示,FlowFormer 在 Sintel 训练集 clean 与 final 两个子集上的误差分别是 0.64 和 1.50,在 KITTI-15 训练集的 F1-epe 与 F1-all 分别达到了 4.09 和 14.72。与 GMA 相比,FlowFormer 在 Sintel 训练集两个子集上分别减少了 50.4% 与 45.3% 的误差,在 KITTI-15 F1-all 上减少了 13.9%,充分展示了 FlowFormer 优异的繁华性能。

Sintel Benchmark 上的精度分析:在 FlyingChairs、FlyingThings、Sintel 训练集这三个数据集上训练,在 Sintel 测试集上评测。FlowFormer 将误差降到了 1.16 和 2.09,下降比率达到了 16.5% 和 15.5%。

KITTI-15 Benchmark 上的精度分析:在 FlyingChairs、FlyingThings、Sintel 训练集、KITTI-15 训练集、HD1K 这五个数据集上训练,在 KITTI-15 测试集上评测。FlowFormer 排名第二,比S-Flow稍差(-0.85%),但是在 Sintel Benchmark 上 S-Flow 远差于 FlowFormer(在 clean 好 final 两个子集上误差大了 31.6% 和 22.5%)。S-Flow 根据修正后的 cost map 来计算坐标期望值作为光流估计。在 KITTI 中图像内容大多是刚体,因此对应的光流更简单,这更适合这种基于 cost map 的坐标期望,但是这不适用于非刚体场景,如Sintel数据集。




可视化结果
对比 Sintel 上 FlowFormer 与 GMA 的光流估计可视化结果(下图所示),FlowFormer 大量减少了物体边界上光流估计的溢出效应(红色箭头所指)并产生了更清晰的细节(蓝色箭头所指)。


视频序列的可视化对比与结果。


YouTube链接:
https://www.youtube.com/watch?v=wPnkbrvqUOk&list=PL6liSIqFR4BU-QdZjL7eW1vPbPnEchXmj&ab_channel=ZhaoyangHuang

bilibili链接:
https://www.bilibili.com/video/BV1qB4y1i7qu?spm_id_from=333.337.search-card.all.click

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ECCV 2022丨力压苹果MobileViT,这个轻量级视觉模型新架构火了7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进纳税人的神圣与幼稚最高加速9倍!字节跳动开源8比特混合精度Transformer引擎那些关于跑步的碎片记忆(2)归一化原来这么重要!深入浅出详解Transformer中的NormalizationNeurlPS 2022 | 用于医学图像分割的类感知生成对抗TransformerPyTorch 创始人:Transformer 太火很不好,AI 易撞墙火爆的Transformer,可能是目前最好发论文的神器!Fast and Effective!一文速览轻量化Transformer各领域研究进展DeepMind新作:无需权重更新、提示和微调,transformer在试错中自主改进一场比红军爬雪山过草地还要艰险的行军火爆的Transformer,可能是目前最好发论文的神器!(文末附顶会合集)After a Blistering Summer, China Braces for a Frigid WinterTransformer检测神器!detrex:面向DETR系列的目标检测开源框架IKEA x OBEGRÄNSAD联名!宜家22年最受瞩目系列开售!古人类DNA与重症新冠有关?2022诺奖得主Pääbo,竟是前诺奖得主私生子MICCAI 2022 | 基于对比学习和视觉Transformer的弱监督视频肠息肉检测NeurIPS 2022 | 清华提出首个退化可感知的展开式Transformer清华提出首个退化可感知的展开式Transformer|NeurIPS 2022ECCV 2022 | PEBAL:用于城市自动驾驶系统的异常分割模型ZT. 地下党的危险: 1948年,金柯潜伏我党内部策划暗杀领导人,最后为啥被化解了呢?频频出圈的Transformer,到底有什么魅力!现世姻缘 (一)2023招聘季 | Jefferies (US) 金融 Summer Internship已开放!霸榜MS MARCO!基于Transformer的混合列表感知排序模型Transformer作者离职创业的公司,想从老东家谷歌再拿2亿美元融资平价买到高级感!IKEA全新 OBEGRÄNSAD系列,全系列都好看!无需微调!微软亚研院:高效加速大规模视觉 Transformer 密集预测任务的方法​KDD 2022 | kgTransformer:基于知识图谱与Transformer的复杂逻辑查询“我们的祖先到底是谁?为何智人胜出?”丨2022诺奖深入回答了这些问题。附Svante Pääbo趣闻一文详解Transformers的性能优化的8种方法Transformer作者创业的公司,想从老东家谷歌再拿2亿美元融资!BatchFormer: 一种简单有效、即插即用的探索样本关系通用模块 (CVPR2022)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。