ECCV 2022 ScanRefer Challenge冠军方法！山大&美团联合提出端到端“火腿”网络，性能首次突破40%！

2022-11-03 16:11

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：罗伟鑫 | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/579736637

3D点云理解+自然语言处理是近年来多模态领域的重要研究课题，目前已衍生出点云-文本定位(3D Visual Grounding)、点云-文本生成(3D Captioning)等一系列相关benchmark，例如由慕尼黑工大和斯坦福共同提出的点云文本定位数据集ScanRefer（ECCV2020）以及点云文本生成数据集Scan2Cap（CVPR2021），由斯坦福及KAUST共同提出的点云-文本物体识别数据集ReferIt3D（ECCV2020）。

ScanRefer挑战赛是由慕尼黑工大、斯坦福、KAUST等单位于ECCV2022共同举办的点云文本定位比赛，在点云多模态领域具有较高影响力。该比赛要求根据在给定的点云场景中，根据给定的文本来定位对应的物体。

在仅提供点云和文本描述作为输入的前提下，如何同时完成对3D物体的准确定位以及视觉-文本的多模态理解和匹配（Grounding-by-Detection）是该任务的最大难点。此前已有一系列工作在该方向上进行了探索并取得了重要进展，例如北航与悉尼大学提出的3DVG-Transformer （ICCV2021），卡内基梅隆大学与META提出的BUTD-DETR（ECCV2022），慕尼黑工大的D3Net（ECCV2022）等方法。在过去的工作中，往往先在点云场景中提取一系列的候选物体，在物体级别上作视觉-文本多模态融合，并预测候选物体的匹配分数，缺少多粒度的全局场景感知和局部建模。北航与美团此前提出了单阶段点云文本定位网络3D-SPS（CVPR2022），将物体检测与视觉-文本融合两个任务进一步结合，但其性能仍受限于理解及建模复杂文本。同时，大量已有工作依赖预训练Backbone网络或检测器、文本编码大模型或Multi-view特征等额外信息。

针对以上情况，山东大学联合美团提出了Hierarchical Attention Model（简称HAM，火腿）来实现对3D点云场景和文本同时进行分层次多粒度的建模和多模态融合，整体框架如下：

点云文本定位与目标检测在该任务中紧密耦合，且天然存在着不平衡。目标检测要求在给定的点云中检测出所有物体，而文本定位只需预测对应的单个物体，因此训练时前者样本稠密而后者样本稀疏。HAM采用了两种数据增强策略来平衡多任务的训练：（1）Batch-Level增强，将原始数据集中的“单场景-单文本”样本扩充为“单场景-多文本”，使得训练中一次检测即可完成多次文本定位；（2）Sentence-Level文本增强将组合多个原始句子以得到单个复杂句子，使得原有的“单句子-单物体”样本被增强为“单句子-多物体”，进一步增加了文本定位的复杂度和稠密度。

数据增强之后，HAM分别对点云和文本进行处理。对于输入点云，HAM提出了Concentration Sampling（CS）下采样策略。常用的点云下采样策略有基于坐标距离的Distance-FPS，基于点特征的Feature-FPS，以及D-FPS和F-FPS各取50%的Fusion Sampling。由于ScanRefer数据集提供了点云的颜色、法向量等点云属性信息，HAM充分利用了这些信息作为特征纳入距离计算，并对Fusion-Sampling的采样方式作了改进，确保了D-FPS和F-FPS采样点数一致且无重复点，以此保证足够多有效的采样点。

可视化结果显示，D-FPS将完全均匀地对空间中地点云进行采样，F-FPS采样则大量聚集于前景物体，缺少背景关键点，FS虽结合二者优势，却引入了大量重复采样，导致有效采样点不足。而HAM所改进的CS则很好地综合了上述三者的优势。

HAM采用PointNet++作为Backbone网络，结合Concentration Sampling下采样得到全局关键点Key-Points并编码对应的特征，并进一步使用MLP预测前景点Proposal-Points，随后对前景点输入Cross-Attention解码器预测得到一系列候选框。Key-Points和Proposal-Points不仅用于完成检测，同时提供了Context-Level和Proposal-Level两个层次的点云信息用于后续的文本定位。

对于输入文本，HAM采用了无预训练的GRU编码器来编码文本特征。GRU每一步的输出即为Word-Level Embedding，最后一步的输出同时还作为Sentence-Level Embedding。同样的，两种Embedding提供了单词级别和句子级别两个层次的文本信息用于后续的文本定位。

HAM提出了Spatially-Global Attention和Spatially-Local Attention，分别在全局空间和局部空间进行点云-文本的多粒度多模态融合，这两者都由基础模块Point-Language Attention构成：

Point-Language Attention基于Cross-Attention实现，其中Proposal-Points提供与文本进行匹配的Query。在浅层的Cross-Attention Layer中，Word-Level Embedding和Key-Points共同提供Key和Value，进行单词级别的交互及融合。同样的，在深层的Cross-Attention Layer中，Sentence-Level Embedding和Key-Points提供Key和Value，进行句子级别的交互及融合。经过分层次、多粒度的视觉-文本交互，前景点Proposal-Points在吸收了来自Key-Points的环境信息的基础上，完成了从单词到句子的信息融合。

通过可视化不同单词以及完整句子与Proposal-Points的注意力权重，可以观察到，不同的单词得到了与之相对应的不同响应，有效地注意到了文本中的关键线索，完整句子则进一步激活目标物体附近的Proposal-Points。

在Spatially-Global Attention中，空间中所有的Proposal-Points和Key-Points都作为Point-Language Attention的输入，在全局空间上进行注意力建模。然而，这种方式将不可避免地导致来自全局前景的Key-Points被注意，而来自局部背景的Key-Points被忽视，如图所示，红色小球所表示的Proposal-Point几乎丢失了来自附近红色框内的所有的Key-Points。

因此HAM还进一步提出Spatially-Local Attention来进一步约束局部区域内的信息交互。首先完整的点云被均分为多个立方体区域，如图所示：

在Spatially-Local Attention中，约束了只有每个立方体区域内的Proposal-Points和Key-Points允许进入Point-Language Attention，而来自不同区域的Proposal-Points和Key-Points将不交换信息。通过可视化，可以观察到该方法简单有效地约束了Proposal-Points吸收来自邻域的信息：

Spatially-Global Attention以及Spatially-Local Attention并行计算，分别得到经过全局和局部两个层次信息交换的Proposal-Points特征，两组特征经过简单的相加和全连接层，得到Proposal-Points最终的预测分数。

HAM无需任何预训练目标检测器或文本编码器，仅需采用经典3D目标检测VoteNet的检测损失函数以及简单的交叉熵损失来同时监督目标检测和文本定位两个任务，并沿用ScanRefer Baseline方法中的文本目标分类作为辅助任务，即可实现端到端的训练。在ScanRefer的验证集上达到了SOTA水平，并在ScanRefer Online Benchmark测试集最难的指标[email protected]上力压所有方案，成为首次突破40%的方法，获得挑战赛冠军，并在ECCV 2022 workshop on Language for 3D Scenes上做口头汇报。

更多研究细节，可参考原论文。

https://arxiv.org/abs/2210.12513

代码: github.com/PPjmchen/HAM

点击进入—> CV 微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：ECCV2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

ECCV 2022 ScanRefer Challenge冠军方法！山大&美团联合提出端到端“火腿”网络， 性能首次突破40%！

ECCV 2022 ScanRefer Challenge冠军方法！山大&美团联合提出端到端“火腿”网络，性能首次突破40%！