Redian新闻
>
UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务

UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务

公众号新闻

从二维图像中理解场景的三维结构和运动信息是计算机视觉领域的一项核心研究目标,也是许多实际应用的基石。近年来,许多不同的网络结构被提出来解决几何和运动相关的任务,如深度估计、立体匹配和光流等。然而,现有的工作大多致力于设计特定的网络结构来独立解决每一个特定的任务,忽视了许多几何和运动估计任务是本质上相关的对应关系估计问题。这种针对特定任务的研究理念不可避免地导致需要处理大量的网络结构。此外,独立地研究每一项特定的任务使得无法很好地复用预训练的模型,因为各任务之间的网络结构和模型参数往往有所差异。

机器之心最新一期线上分享邀请到了苏黎世联邦理工学院与图宾根大学联合培养博士生徐豪飞,为大家解读他们CVPR 2022的Oral论文 GMFlow 及其后续工作UniMatch。

这项工作提出了一个统一模型 UniMatch 来解决三个稠密感知任务:光流、立体匹配和深度估计。作者的主要观察在于这三个任务可以通过一种显式地稠密特征匹配框架来进行统一,进而这一问题被转化为提取任务无关的、判别能力强的特征来进行匹配。为此,文章提出采用 Transformer,尤其是 cross-attention 来实现。其中 cross-attention 可以建模两张图片之间的相互依赖关系,从而极大地提升特征的质量。由于网络结构和参数在不同任务之间是共享的,因此可以很自然地支持跨任务之间的迁移。文章提出的最终模型在10个流行的数据集上取得了最好或具有竞争力的结果,同时网络结构更加简单和高效。

分享主题:UniMatch: 统一光流、立体匹配和深度估计三个任务

分享嘉宾:徐豪飞,苏黎世联邦理工学院与图宾根大学联合培养博士生。硕士毕业于中国科学技术大学。研究方向包括光流、立体匹配和三维场景表征学习。

分享摘要:本次分享将首先介绍相关领域的发展历程,进而介绍我们 CVPR 2022Oral论文 GMFlow 及其后续工作UniMatch:统一光流、立体匹配和深度估计三个任务,并展示该统一模型的独特性与优势,最后会讨论该工作的局限性及可能的未来研究方向。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/unimatch

2)项目主页:

https://haofeixu.github.io/unimatch/

3)论文链接:

https://arxiv.org/abs/2211.05783v1

4)代码仓库:

https://github.com/autonomousvision/unimatch

加群看直播
直播间关注机器之心机动组视频号,北京时间 12 月 28 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「UniMatch」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国内唯一光刻机制造商落后15年,自研光刻机可能吗?老板交待了一个任务,有智慧的下属都是这么回应的走资派邓小平窃国大盗乱世奸雄荣耀Magic5系列三证齐全,国行版预计三月发售雕刻南瓜灯,红薯干清华CodeGeeX项目原作解读:大规模多语言代码生成模型AudioLDM一作解读:文本生成高质量音频,单GPU即可端到端音视频说话人日志网络,一作解读INTERSPEECH 2022论文人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史正式通知! 剪辑招募200人:统一培训视频剪辑技能,提升收λ!人人可学!钱学森的“回国观感”ChatGPT图像识别能力解锁和深度分析临床科研大咖主持,在线学术交流、激发头脑风暴丨通过解读经典论文,讨论疾病管理与负担、传统治疗与新兴靶向治疗进展,启迪研究思路深度解读:《36Kr全球华人精英Power100》LSTM之父最新长文:现代AI和深度学习发展史FastTrack Universität 2023莱比锡大学公立语言项目招生简章DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索纽约电、气费预计三年连涨!涉及曼哈顿、布朗士、皇后区及威郡!佰百鸡遭抢华人店员溅血深度解读:打响2023年茅台数字化转型第一枪的为什么是“巽风”?内卷躺平是极端选择,内卷卷掉耐心和深度,躺平躺出惰性、油腻和一身赘肉习大帝也不是一无是处,治好了朋友的抑郁华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型正式通知! 剪辑招募 200人:统一 培训 视频剪辑技能,提升收. λ!人人可学!订单排满!这一光伏细分赛道要火在美国271.害人害己2022年Q3财报深度解读:重新审视美团美股IPO|本周预计三宗 IPO 完成定价​,中国教育科技公司量子之歌带头引领本周IPO市场MOAT项目原作解读:强大的可扩展视觉骨干网络DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架正式通知! 剪辑招募200人:统一培训 视频剪辑技能,提升 收. λ!人人可学!系列解读:深度时空视觉表征学习方法及应用深度解读:加拿大为什么要接收这么多移民?Galvatron项目原作解读:大模型分布式训练神器,一键实现高效自动并行中国研究生课程仍需大幅度提高质量和深度:更待何时生成扩散模型漫谈:统一扩散模型(理论篇)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。