Redian新闻
>
CVPR 2023 | 完全无监督的视频物体分割 RCF

CVPR 2023 | 完全无监督的视频物体分割 RCF

公众号新闻



TLDR:视频分割一直是重标注的一个 task,这篇 CVPR 2023 文章研究了完全不需要标注的视频物体分割。仅使用 ResNet,RCF模型在 DAVIS16/STv2/FBMS59 上提升了 7/9/5%。文章里还提出了不需要标注的调参方法。代码已公开可用。



论文标题: 
Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

论文链接:

https://arxiv.org/abs/2304.08025

作者机构:

UC Berkeley, MSRA, UMich

分割效果视频:

https://people.eecs.berkeley.edu/~longlian/RCF_video.html

项目主页: 

https://rcf-video.github.io/

代码链接: 

https://github.com/TonyLianLong/RCF-UnsupVideoSeg


视频物体分割真的可以不需要人类监督吗?


视频分割一直是重标注的一个 task,可是要标出每一帧上的物体是非常耗时费力的。然而人类可以轻松地分割移动的物体,而不需要知道它们是什么类别。为什么呢?


Gestalt 定律尝试解释人类是怎么分割一个场景的,其中有一条定律叫做 Common Fate,即移动速度相同的物体属于同一类别。比如一个箱子从左边被拖到右边,箱子上的点是均匀运动的,人就会把这个部分给分割出来理解。然而人并不需要理解这是个箱子来做这个事情,而且就算是婴儿之前没有见过箱子也能知道这是一个物体。




运用Common Fate来分割视频


这个定律启发了基于运动的无监督分割。然而,Common Fate 并不是物体性质的可靠指标:关节可动(articulated)/可变形物体(deformable objects)的一些 part 可能不以相同速度移动,而物体的阴影/反射(shadows/reflections)始终随物体移动,但并非其组成部分。


举个例子,下面这个人的腿和身子的运动是不同的(Optical Flow 可视化出来颜色不同)。这很常见,毕竟人有关节嘛(articulated),要是这个处理不了的话,很多视频都不能分割了。然而很多 baseline 是处理不了这点的(例如 AMD+ 和 OCLR),他们把人分割成了几个部分。

还有就是影子和反射,比如上面这只天鹅,它的倒影跟它的运动是一致的(Optical Flow 可视化颜色一样),所以之前的方法认为天鹅跟倒影是一个物体。很多视频里是有这类现象的(毕竟大太阳下物体都有个影子嘛),如果这个处理不了的话,很多视频也不能分割了。




那怎么解决?放松。Relax.


长话短说,那我们的方法是怎么解决这个问题的呢?无监督学习的一个特性是利用神经网络自己内部的泛化和拟合能力进行学习。既然 Common Fate 有自己的问题,那么我们没有必要强制神经网络去拟合 Common Fate。于是我们提出了 Relaxed Common Fate,通过一个比较弱的学习方式让神经网络真正学到物体的特性而不是 noise。


具体来说,我们的方法认为物体运动由两部分组成:物体总体的 piecewise-constant motion (也就是 Common Fate)和物体内部的 segment motion。比如你看下图这个舞者,他全身的运动就可以被理解成 piecewise-constant motion 来建模,手部腿部这些运动就可以作为 residual motion 进行拟合,最后合并成一个完整的 flow,跟 RAFT 生成的 flow 进行比较来算 loss。我们用的 RAFT 是用合成数据(FlyingChairs 和 FlyingThings)进行训练的,不需要人工标注。




Relaxed Common Fate


首先我们使用一个 backbone 来进行特征提取,然后通过一个简单的 full-convolutional network 获得 Predicted Masks (下图里的下半部分),和一般的分割框架是一样的,也可以切换成别的框架。

那我们怎么优化这些 Masks 呢?我们先提取、合并两帧的特征,放入一个 residual flow prediction head 来获得 Residual Flow (下图里的上半部分)。

然后我们对 RAFT 获得的 Flow 用 Predicted Masks 进行 Guided Pooling,获得一个 piecewise-constant flow,再加上预测的 residual flow,就是我们的 flow prediction 了。最后把 flow prediction 和 RAFT 获得的 Flow 的差算一个 L1 norm Loss 进行优化,以此来学习 segmentation。

在测试的时候,只有 Predicted Masks 是有用的,其他部分是不用的。

这里的 Residual Flow 会尽量初始化得小一些,来鼓励先学 piecewise-constant 的部分(有点类似 ControlNet),再慢慢学习 residual 部分。




引入Appearance信息来帮助无监督视频分割


光是 Relaxed Common Fate 就能在 DAVIS 上相对 baseline 提 5%了,但这还不够。前面说 Relaxed Common Fate 的只用了 motion 而没有使用 appearance 信息。


让我们再次回到上面这个例子。这个舞者的手和身子是一个颜色,然而 AMD+ 直接把舞者的手忽略了。下面这只天鹅和倒影明明在 appearance 上差别这么大,却在 motion 上没什么差别。如果整合 appearance 和 motion,是不是能提升分割质量呢?

因此我们引入了 Appearance 来进行进一步的监督。在学习完 motion 信息之后,我们直接把取得的 Mask 进行两步优化:一个是 low-level 的 CRF refinement,强调颜色等细节一致的地方应该属于同一个 mask(或背景),一个是 semantic constraint,强调 Unsupervised Feature 一直的地方应该属于同一个 mask。


把优化完的 mask 再和原 mask 进行比较,计算 L2 Loss,再更新神经网络。这样训练的模型的无监督分割能力可以进一步提升。具体细节欢迎阅读原文。




无监督调参


很多无监督方法都需要使用有标注的数据集来调参,而我们的方法提出可以利用前面说的 motion 和 appearance 的一致性来进行调参。简单地说,motion 学习出的 mask 在 appearance 上不一致代表这个参数可能不是最优的。具体方法是在 Unsupervised Feature 上计算 Normalized Cuts (但是不用算出最优值),Normalized Cuts 越小越代表分割效果好。原文里面对此有详细描述。




方法效果


无论是否有 Post-processing,我们的方法在三个视频分割数据集上都有很大提升,在 STv2 上更是提升了 12%。

Ablation 可以看出 Residual pathway (Relaxed Common Fate)的贡献是最大的,其他部分总计贡献了 11.9% 的增长。

Visualizations




总结


这篇 CVPR 2023 文章研究了完全不需要标注的视频物体分割。通过 Relaxed Common Fate 来利用 motion 信息,再通过改进和利用 appearance 信息来进一步优化,RCF 模型在 DAVIS16/STv2/FBMS59 上提升了 7/9/5%。文章里还提出了不需要标注的调参方法。代码和模型已公开可用。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
jc 14炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVISCVPR 2023 大牛演讲:改动一行代码,PyTorch训练三倍提速!这些技术是关键!Sagittarius Woman:今天买到TCVPR 2023论文总结!CV最热领域颁给多模态、扩散模型比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构俄乌战况24ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测压缩一切!OpenAI首席科学家Ilya Sutskever这么看无监督学习ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023这场跳舞戏是男女调情的最高级形式|《低俗小说》深度赏析七CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!《風雨兼程》微信视觉团队斩获CVPR 2023视频相似性大赛双赛道冠军!CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRES2023 唱坛母亲节快闪【谁言寸草心】合辑ICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVIS上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023​ACL 2023 | 用二分类解决无监督常识问答CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架人为什么会衰老 (2023视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达CVPR 2023 | 改动一行代码,PyTorch训练三倍提速,这些高级技术是关键I'm PossibleCVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割CVPR 2023 医学图像分割论文大盘点ViLT: 没有卷积和区域监督的视觉-语言Transformer模型学生为何热衷于举报老师?若有那份心思,请学生花在真正需要监督的人身上CVPR 2023上的分割论文杀疯了!直接压缩一切!OpenAI首席科学家Ilya Sutskever这么看无监督学习CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别KDD 2023 | SGIR:半监督的图不平衡回归英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023CVPR 2023 | RCF:完全无监督的视频物体分割wow! Tom Hanks Presidential Harvard Speech Motivational InspiratCVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。