Redian新闻
>
用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

公众号新闻



  新智元报道  

编辑:好困
【新智元导读】最近,来自NTU、KCL和同济的团队基于Meta的「分割一切」,提出了全新的模型Relate Anything Model——联系一切。

本月初,Meta推出的「分割一切」模型可谓是震撼了整个CV圈。
这几天,一款名为「Relate-Anything-Model(RAM)」的机器学习模型横空出世。予了Segment Anything Model(SAM)识别不同视觉概念之间的各种视觉关系的能力。
据了解,该模型由南洋理工大学MMLab团队和伦敦国王学院和同济大学的VisCom实验室的同学利用闲暇时间合作开发。

演示地址:https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

代码地址:https://github.com/Luodian/RelateAnything

数据集地址:https://github.com/Jingkang50/OpenPSG

效果演示


首先,让我们来看一看「Relate-Anything-Model(RAM)」的应用实例吧!
比如,下面这些关于踢足球、跳舞和交朋友的RAM模型实现的图像分析结果,就让人印象非常深刻,很好地展示了模型出色的性能和多样化应用的潜力。

预备知识:全场景图生成PSG任务

RAM模型基于ECCV'22 SenseHuman Workshop & 国际算法算例大赛「Panoptic Scene Graph Generation」赛道冠军方案。

论文地址:https://arxiv.org/abs/2302.02651

该PSG挑战赛奖金百万,共收到来自全球100支团队提交的各种解决方案,其中包括了使用先进的图像分割方法以及解决长尾问题等。此外,竞赛还收到了一些创新性的方法,如场景图专用的数据增强技术。
经过评估,根据性能指标、解决方案的新颖性和意义等方面的考虑,小红书团队的GRNet脱颖而出,成为获胜的方法。

比赛详情:https://github.com/Jingkang50/OpenPSG
在介绍解决方案之前,我们首先来介绍两个经典的PSG基线方法,其中一个是双阶段方法,另一个是单阶段方法。
对于双阶段基线方法,如图a所示,在第一阶段中,使用预训练的全景分割模型Panoptic FPN从图像中提取特征、分割和分类预测。然后,将每个个体对象的特征提供给经典的场景图生成器,如IMP,以便在第二阶段进行适应PSG任务的场景图生成。该双阶段方法允许经典的SGG方法通过最小的修改适应PSG任务。
如图b所示,单阶段基线方法PSGTR首先使用CNN提取图像特征,然后使用类似DETR的transformer编码器-解码器来直接学习三元组表示。匈牙利匹配器用于将预测的三元组与基本真实三元组进行比较。然后,优化目标最大化匹配器计算的成本,并使用交叉熵进行标签和分割的DICE/F-1损失计算总损失。

RAM模型架构

在RAM模型的设计过程中,作者参考了PSG冠军方案GRNet的双阶段结构范式。尽管PSG原文的研究中表明,单阶段模型目前的表现优于双阶段模型,然而,单阶段模型通常无法像双阶段模型那样达到良好的分割性能。
经对不同模型结构的观察推测,单阶段模型在关系三元组预测上的优异表现可能是由于来自图像特征图的直接监督信号有利于捕捉关系。
基于这一观察,RAM的设计同GRNet一样,旨在两个模式之间找到一个权衡,通过重视双阶段范式并赋予其类似于单阶段范式中获取全局上下文的能力来实现。
具体地,首先利用Segment Anything Model(SAM)作为特征提取器,识别和分割图像中的物体对象,将来自SAM分割器的特定对象的中间特征映射与其对应的分割融合,得到对象级别特征。
随后,把Transformer作为一种全局上下文模块,将获得的对象级别特征经过线性映射后输入其中。通过Transformer编码器中的交叉注意力机制,输出的对象特征从其他对象中收集了更多的全局信息。
最后,对于Transformer输出的每个对象级别特征,通过self-attention机制进一步丰富上下文信息并使各个物体对象之间完成交互。
请注意,这里还添加了一个类别嵌入以指示对象的类别,并由此得到了成对的物体及它们之间关系的预测。

RAM关系分类

在训练过程中,对于每个关系类别,需要执行关系二元分类任务以确定对象对之间是否存在关系。
和GRNet相似的,对关系二元分类任务还有一些特别的考虑。例如, PSG数据集通常包含两个具有多个关系的对象,例如「人看着大象」和「人喂大象」同时存在。为了解决多标签问题,作者将关系预测从单标签分类问题转换为多标签分类问题。
此外,由于PSG数据集通过要求注释者选择特定和准确的谓词(如「停在」而不是更一般的「在」)来追求精度和相关性,可能不适合学习边界关系(如「在」实际上与「停在」同时存在)。为了解决这个问题,RAM采用了一种自我训练策略,使用自我蒸馏标签进行关系分类,并使用指数移动平均来动态更新标签。

RAM的其他设计

在计算关系二元分类损失时,每个预测对象必须与其对应的基础真实对象配对。匈牙利匹配算法用于此目的。
然而,该算法容易出现不稳定情况,特别是在网络准确度低的早期训练阶段。这可能导致对于相同的输入,匹配产生不同的匹配结果,导致网络优化方向不一致,使训练变得更加困难。
在RAM中,不同于之前方案,作者借助于强大的SAM模型,可以对几乎任何图片进行完整且细致的分割,因此,在匹配预测和GT过程中, RAM自然地设计了新的GT匹配方法:使用PSG数据集来训练模型。
对于每个训练图像,SAM会分割多个物体,但只有少数与PSG的ground truth(GT)mask相匹配。作者根据它们的交集-并集(IOU)分数进行简单的匹配,以便(几乎)每个GT mask都被分配到一个SAM mask中。之后,作者根据SAM的mask重新生成关系图,自然地匹配上了模型的预测。

RAM模型总结

在RAM模型中,作者利用Segment Anything Model(SAM)来识别和分割图像中的物体,并提取每个分割物体的特征。随后使用Transformer模块来使分割物体之间产生交互作用,从而得到新的特征。最后将这些特征经过类别嵌入后,通过self-attention机制输出预测结果。
在训练过程中,特别地,作者提出了新的GT匹配方法并基于该方法,计算预测和GT的配对关系并分类它们的相互关系。在关系分类的监督学习过程中,作者视之为多标签分类问题并采用了一种自我训练策略学习标签的边界关系。
最后,希望RAM模型能够为你带来更多的启发和创新。如果你也想训练会找关系的机器学习模型,可以关注该团队的工作,并随时提出反馈和建议。

项目地址:https://github.com/Jingkang50/OpenPSG

参考资料:
https://github.com/Luodian/RelateAnything




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRES品质拔群!《王者荣耀世界》新实机演示堪比3A大作,抬高市场门槛7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像分割一切模型SAM首篇全面综述:28页、200+篇参考文献分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下旧金山的新公园:隧道顶公园最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种SAM分割一切最全论文大盘点CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!怎么开始学佛(十一)再啰嗦几句PK网络捉骗视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 2.4K+星Relate Anything来了!帮你搞定一切关系!房屋保险3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型能说会唱,AudioGPT惊艳亮相!浙大、北大、CMU等提出全新音频理解与生成系统分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星卷爆CV!46篇分割一切模型(SAM)二创论文大盘点当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻春风如贵客,果岭遂繁华比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数分割一切又一力作!北京智源提出通用分割模型SegGPT分割一切还不够,还要检测一切、生成一切,SAM二创开始了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。