Redian新闻
>
NeurIPS 2023 | 东南大学&上交提出H2RBox-v2:旋转目标检测新网络

NeurIPS 2023 | 东南大学&上交提出H2RBox-v2:旋转目标检测新网络

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【遥感图像和目标检测】交流群

作者:火木鱼(源:知乎,已授权)| 编辑:CVer公众号

https://zhuanlan.zhihu.com/p/620884206

在CVer微信公众号后台回复:H2R,可以下载本论文pdf、代码

一、引言

H2RBox-v2发布了,这篇文章作为H2RBox的新版本,提出了对称感知学习(Symmetry-aware Learning),即通过对称性自监督学习目标的角度,性能相比H2RBox提升明显。

这篇文章的研究主题是:从水平框标注学习有向目标检测(弱监督学习),即在人工标注仅有水平框,没有旋转角度的情况下,神经网络是否能学习出每个目标的旋转角度。

H2RBox-v2: Incorporating Symmetry for Boosting Horizontal Box Supervised Oriented Object Detection论文:https://arxiv.org/abs/2304.04403代码(已开源):https://github.com/open-mmlab/mmrotate

在目前现有的几种方案上做了个对比,包括基于SAM(Segment Anything Model)的方法:

二、灵感

对称性是广泛存在于各类场景中的天然属性,以DOTA数据集为例,其中飞机、球场、汽车、船舶等诸多类别都具有显著的对称性。在人工对图像进行有向标注的过程中,目标的对称性同样是重要考虑因素之一,人们通常会很自然地将对称轴的方向作为目标朝向,那么在水平框弱监督中通过对称性学习目标的朝向,理论上也是可行的。

原理解析

轴对称的定义:如果一个平面图形沿着一条直线翻转后,与原本的图形能够互相重合,那么这个图形为轴对称图形,这条直线为对称轴。

于是驱动H2RBox-v2的核心理论就诞生了:假如网络输入了一个轴对称图像作为激励, 训练这个网络去满足翻转一致性和旋转一致性,就相当于用输入图像的对称性对网络进行监督。如果网络成功学习到了翻转一致性和旋转一致性,那么网络的输出就会刚好是这张图像的对称轴方向。

上面这个结论虽然是在输入图像只有单个目标且完全对称的情况下推导的,但是实验表明,即使对于多目标检测,包括目标并非完美对称的情况下,都可以学习到近似于对称轴的方向,也就是说这个原理其实适用于几乎所有的长条形目标,和有向目标检测的应用场景可以说是完美契合。

顺便提一下,其实这里为了比较容易看懂,没有把旋转周期性加上,严谨的结论是有两个解,要么是对称轴方向,要么垂直于对称轴方向。这其实不影响网络的训练,当自监督分支学习到垂直于对称轴方向的时候,弱监督分支也会自动调换长边和短边,最终的输出总是对的。

三、方法介绍

先简单提一下老版本,H2RBox-v1包含一个弱监督分支和一个自监督分支,其中目标的尺寸和角度都主要靠弱监督分支学习,本质是通过水平框的外接几何约束学习角度,学习到的角度有若干种对称的解,再依靠自监督分支提供的角度约束消除其中的错误解。这种方式对水平框的标注精度要求较高,对训练数据量要求也较大。

H2RBox-v2同样包含一个弱监督分支和一个自监督分支,其中弱监督分支在H2RBox-v1的基础上稍微改进,而自监督分支采用了全新的Symmetry-aware Learning范式,能够独立于弱监督分支工作,直接从图像中根据目标的对称性学习目标的方向。

整体结构图:

自监督分支

H2RBox-v2的自监督分支首先要将原图像生成两个视图,1)上下翻转,2)随机旋转。自监督分支中网络只预测一个角度值(首先为每个像素输出长度为3的向量,再通过PSC角度编码后得到角度)。

这个角度编码方法是源自:

https://zhuanlan.zhihu.com/p/620775646

弱监督分支

H2RBox-v2的弱监督分支核心改进有两点:

1)因为H2RBox-v2的自监督可以独立工作,也就不需要从弱监督学习角度了,所以弱监督这边不需要给角度回归的Subnet传递任何信息,在代码中用了detach断开梯度。

2)H2RBox-v1的弱监督分支中要把旋转框转换成水平框,再计算IoU Loss。但是一旦使用随机旋转数据增强,标注框就不再是水平框了,这就导致H2RBox-v1无法使用随机旋转数据增强。为了解决这个问题,H2RBox-v2提出了一种CircumIoU Loss,直接计算外接关系的两个框之间的IoU损失:

最终的Loss就只要把弱监督分支和自监督分支直接相加就好了。

推理过程

前面的两个分支都是在训练的时候用于计算Loss的,在推理的时候则不需要生成视角。由于不同分支共享参数,只要推理一次(Backbone+Angle/Regression/Classification/Centerness Heads),推理过程和原始的检测器或H2RBox-v1相比,只多了一次PSC解码,因此推理速度几乎相同。

四、实验

消融实验

Table 3-4:首先是针对自监督和弱监督中提出的新Loss进行验证,可以看出PSC编码器和Snap Loss(表中 ls 列)都是必须的,否则因为边界问题会导致训练很不稳定,而CircumIoU Loss(表中 lp 列)也确实解决了H2RBox-v1不能旋转增强的问题。DOTA上面旋转增强后性能没有提高应该是因为对比的时候统一用的1x训练量,对旋转增强来说是不够的。

Table 5:再来看翻转和旋转之间的权重,翻转的权重要比旋转小,0.05或者0.1比较好,大了不收敛。

Table 7:最后还有一个Padding的实验,H2RBox-v1里面Padding很重要,不能留黑边,必须用反射填充。但是在H2RBox-v2里面,黑边影响已经很小了,只低一丢丢(不排除是随机因素,也可能其实是没影响)。

对比实验

H2RBox-v2在DOTA的v1.0/1.5/2.0三个版本,以及HRSC和FAIR1M数据集上都进行了实验。其中DOTA-v1.0上面做了比较多的实验,H2RBox-v2相比v1的提升是2.26%。这里对比的v1是用MMRotate1.0新代码,并且重新调整学习率等参数后的复现结果,本身基准是比原始的v1论文高2个点的。

在DOTA-v1.5/2.0上,也是类似的提升幅度,三个版本的DOTA平均下来提高2.32%。

HRSC因为数据集比较小,H2RBox-v1基本上是训练不了的,而H2RBox-v2在这种小数据集上效果同样很好。这里提一下KCR(CVPR 2023),这个方法是迁移学习,用有向框标注的DOTA训练,迁移到水平框标注的HRSC,达到了79.10%,已经是当前的SOTA了。而H2RBox-v2单纯使用水平框标注的HRSC,就达到了89.66%。

最后再说一下FAIR1M,这个数据集和DOTA相比,包含更多飞机、汽车、球场这种对称性非常显著的目标,因此H2RBox-v2在这个数据集上效果非常好,比v1提高了6.33%,甚至比完全监督的FCOS还高1.02%(H2RBox-v2的检测器也是基于FCOS的,所以这两个的对比可以说明弱监督和完全监督之间的差距)。

五、总结

H2RBox-v2的主要创新在于对称性自监督学习,直接从目标的对称性获取方向信息,在Plane、Ship、Vehicle等类别上取得了相当好的效果,但也有一些类别是不太适用的,比如Baseball-diamond。如果对其中一些类别按照v2的方式学习,而另一些对称性不佳的目标仍然保留v1的外接矩形几何约束方式,有可能获得更高的性能。

在CVer微信公众号后台回复:H2R,可以下载本论文pdf、代码

点击进入—>【遥感图像和目标检测】交流群

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

遥感图像和目标检测交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-遥感图像或者目标检测 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如遥感图像或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较ICCV 2023 | 华为诺亚提出全新目标检测器Focus-DETRNeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion玻璃缸里的孙凤 (24)ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架ICCV 2023 | 通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型“源”创作品-《阿图什的无花果》词曲:雪源 和声&音乐策划:雨彤ICCV 2023 | 混合训练策略突破目标检测大模型上限,创下COCO、LVIS新SOTANeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!NeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路百万奖金池!目标检测、分割、测距、融合、规划、控制等新赛事全面启动!2023中国智能网联汽车算法挑战赛(CIAC 2023)来了NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTA难以革舍目标检测新赛事!"达观杯"智能文档版面分析大赛来了!丰厚奖金+面试优先录用!NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法ICCV 2023 | SparseBEV:高性能、全稀疏的纯视觉3D目标检测器NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路【2023坛庆】《情叹》翻唱:爱晚亭&丽莎 音频全民K歌录制,视频来自旅游素材。集思广益,北美(美国&加拿大)有哪些值得一试的当地特色美食?挪威和瑞典皇宫NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务红色日记 8.16-31ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别Gunn HS遥感顶刊TGRS 2023!MUS-CDB:遥感目标检测中的主动标注的具有类分布平衡的混合不确定性采样NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效【2023坛庆】“神游四海,心系唱坛”,《路过人间》和声版 by: 雾里 & 微雨108万奖金!目标检测、图像分类等赛事!2023长三角(芜湖)人工智能视觉算法大赛全面启动!ICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测ICCV 2023 | 将MAE预训练好的Encoder-Decoder整体迁移到目标检测中新加坡的不得不萌超148万奖金!目标检测、分割新赛事!2023 无锡国际人工智能算法大赛全面启动!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。