国际科技财经博客移民网络热点娱乐民生时事公众号

>

比LERF提速199倍！清华哈佛发布LangSplat：三维语义高斯泼溅 | CVPR 2024 Highlight

比LERF提速199倍！清华哈佛发布LangSplat：三维语义高斯泼溅 | CVPR 2024 Highlight

公众号新闻

2024-06-28 06:06

新智元报道

编辑：LRST

【新智元导读】本文将为大家介绍CVPR 2024 Highlight的论文LangSplat: 3D Language Gaussian Splatting（三维语义高斯泼溅）。LangSplat在开放文本目标定位和语义分割任务上达到SOTA性能。在1440×1080分辨率的图像上，查询速度比之前的SOTA方法LERF快了199倍。代码已开源。

人类生活在一个三维世界中，并通过文本语言描述三维场景，构建三维语义场以支持在三维空间中的开放文本查询最近越来越受到关注。

最近，来自清华大学和哈佛大学的研究人员共同提出了LangSplat，该方法结合三维高斯泼溅技术重建三维语义场，能够实现准确高效的开放文本查询。现有方法在NeRF的基础上嵌入CLIP语义特征，LangSplat则通过结合三维高斯泼溅，在每个高斯点上编码了从CLIP提取的语义特征。

Project Page: https://langsplat.github.io/

Paper: https://arxiv.org/pdf/2312.16084.pdf

Video: https://youtu.be/K_9BBS1ODAc?si=gfo5TrLK-htyWyuT

Code: https://github.com/minghanqin/LangSplat

采用tile-based的三维高斯泼溅技术来渲染语义特征，从而避免了NeRF中计算成本高昂的渲染过程。

LangSplat首先训练特定场景下的语义自编码器，然后在场景特定的低维latent space上学习语义特征，而不是直接学习高维的CLIP语义特征，从而降低了计算量。现有基于NeRF的方法的三维语义场比较模糊，无法清晰地区分目标的边界。

本文深入研究了这一问题，提出使用SAM学习多层次语义，在不引入DINO特征的情况下获得了更准确的语义场。广泛的实验结果表明，LangSplat在开放文本目标定位和语义分割任务上的性能显著超过了之前的SOTA方法LERF。

值得注意的是，LangSplat在1440×1080分辨率的图像上，查询速度比LERF快了199倍。

在3D场景中进行开放文本查询对于机器人导航、3D编辑和增强现实等应用非常重要。目前的方法，例如LERF在神经辐射场中嵌入CLIP语义特征，受到速度和准确性的限制。

本文提出的方法LangSplat显著提高了效率和准确性，为落地应用提供了一种有前景的方案。

该工作目前在X（Twitter）上受到广泛关注。被清华大学官方账号以及AK转载，论文视频累计浏览量超过100,000，论文代码已开源。

方法论

层次语义学习：LangSplat利用Segment Anything Model（SAM）学习层次语义，解决了三维语义场的边界模糊问题。

3D语义高斯泼溅：LangSplat引入了一种新的技术，即3D高斯泼溅，它使用包含语义特征嵌入的3D高斯来表示3D场景。这种方法比NeRF-based的方法渲染过程更快。

特定场景的语义自编码器：为了缓解高维语义特征嵌入导致的内存out of memory问题，LangSplat构建特定场景的语义自编码器将这些文本语义特征降维。

层次语义学习

在本文中，我们利用SAM来获得实例级的精确对象掩码，然后用这些掩码对应的图像区域提取像素对齐的特征。我们还明确地建模了SAM定义的语义层次，以解决点模糊性问题。

具体来说，我们将一个32 × 32点提示的常规网格输入SAM，以获得三个不同语义层次下的掩码：分别代表子部分、部分和整体层次的掩码。

然后基于SAM预测的IoU分值、稳定性分值和掩码之间的重叠率，为每一组掩码去除冗余的掩码。每个过滤后的掩码集合独立地根据其各自的语义层次做全图分割，从而得到三个分割图：。

这些分割图准确地勾勒出对象在其层次结构中的边界，有效地将场景划分为语义上有意义的区域。通过获得的分割图，我们继续为每个分割区域提取CLIP特征。

数学上，得到的像素对齐的语义嵌入是：

如此，从三维语义场景渲染的每个像素都具有与其精确语义上下文相匹配的CLIP特征。这种匹配减少了模糊性，提高了基于语义的查询的准确性。

此外，由于我们在「整体」、「部分」和「子部分」层次上都有不同的分割图，我们可以直接在这些预定义的尺度上查询三维语义场。这消除了在多个绝对尺度上进行密集搜索的需要，使查询过程更加高效。

3D语义高斯泼溅

在一组2D图像上获得语义嵌入后，我们可以通过建模3D点和2D像素之间的关系来学习一个3D语义场。

大多数现有方法使用NeRFs进行3D建模，但它们面临着耗时的渲染过程。为了解决这个问题，我们提出了基于3D高斯散射的3D语义场建模方法。

这种3D高斯散射方法明确地将3D场景表示为各向异性的3D高斯分布的集合，每个高斯分布由均值和协方差矩阵描述：

3D高斯投影到2D图像平面上后，用基于tile的光栅化策略进行渲染：

其中，ci是第 i 个高斯的颜色，N 表示瓦片中的高斯数量，是在像素 v 处渲染的颜色，。

这里oi是第 i 个高斯的不透明度，代表投影到二维上的第 i 个高斯的函数。

在本文中，我们提出了3D语义高斯，为每个高斯增加三个语义嵌入。

这些嵌入源自CLIP特征，捕捉了SAM提供的层次语义。增强后的高斯被命名为3D语义高斯。并采用基于tile的光栅化器以保持渲染效率：

其中，代表在像素v处以语义层次l渲染的语义嵌入。通过直接将语义信息引入高斯中，我们使三维语义场能够响应基于文本的查询。

特定场景的语义自编码器

作为一种显式建模方法，表征一个复杂场景可能需要数百万个3D点。直接在高维的CLIP潜空间直接学习高斯的语义特征会显著增加内存消耗，容易导致「内存不足」的问题。

为降低内存消耗并提高效率，我们引入了基于场景的语义自编码器，将场景中的CLIP嵌入映射到低维潜在空间。

CLIP模型是通过4亿对（图像，文本）训练的，其D维潜在空间可能非常紧凑。然而，我们在这里训练的语义场Φ是特定于场景的，这意味着我们可以利用场景先验知识压缩CLIP特征。

事实上，对于每个输入图像，我们将获得由SAM分割的数百个掩码，这显著少于CLIP训练中使用的图像数量。因此，场景中的所有分割区域在CLIP潜在空间中稀疏分布，使我们能够通过基于场景的自编码器进一步压缩这些CLIP特征。

实验

实验设置：实验测试了该方法在开放词汇3D对象定位和语义分割任务上的性能，使用的数据集包括LERF和3D-OVS。

结果：LangSplat显著优于先前的最先进方法。特别是，它在1440×1080分辨率下比LERF快199倍，显示出在速度和效率上的显著提高。

可视化和消融研究：论文包括了详细的可视化和消融研究，展示了LangSplat各组成部分的有效性。

贡献

1. 通过引入带有语义特征的3D高斯泼溅来进行三维场景感知。

2. 与以前的方法相比，实现了显著的速度提升，使其适合实时应用。

3. 通过采用层次语义和新的渲染技术，LangSplat提高了3D语义场的精确度。

4. 通过使用场景特定的自动编码器，减少了处理高维数据所需的计算和内存开销。

参考资料：

https://langsplat.github.io/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动 2024 意大利南部行丁香园Insight：2024心血管领域重回主赛道小核酸药物表现亮眼报告 Caught on Camera: Smart Locks Spark Privacy Battles CVPR 2024 满分论文！LiSA：引入语义感知的激光雷达点云视觉定位网络 ICML 2024 | 最高提速1440倍！15秒用GCN搞定随机规划！Highlights｜经典与艺术交融的巴黎男装周 CVPR 2024 | 加快199倍！清华和哈佛提出LangSplat：3D语义高斯泼溅最高提速1440倍！15秒用GCN搞定随机规划，中科院自动化所新成果入选ICML 24 Highlights｜迪奥于爱丁堡呈献二零二五早春女装成衣系列、香奈儿发布2023/24高级手工坊系列广告大片....标注受限也能识别多标签图像！中山大学等发布异构语义转移HST框架 | IJCV 2024 Highlights｜在米兰男装周感受精致与隽永 Travelling to the West in 2024 ( 2 )20小时搞定SCI真的假的？是真的！用对AI，轻松提速10倍！2024《歌手》登场那英杨丞琳汪苏泷梁龙海来阿木 Chanté Moore Faouzia 告别3DGS！带神经补偿的频谱剪枝高斯场SUNDAE开源了！CVPR 2024 | DeiT全新升级！DeiT-LT：针对长尾数据的改进模型 CVPR 2024 | 微软新作StarNet：超强轻量级Backbone Highlights｜江诗丹顿Métiers d’Art艺术大师系列再启新章、宝姿呈现话剧《玩偶之家2：娜拉归来》首演之夜...CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能！港中文&腾讯新作 Highlights｜解锁520的浪漫风格 CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建 CVPR 2024 中科院等提出：实时人像视频三维感知重光照方法个人感慨之140 还是计划生育给NeRF开透视眼！稀疏视角下用X光进行三维重建，9类算法工具包全开源 | CVPR 2024 六十五岁青岛到北京驾车往返日记凤凰发财记（第一部）----015 道士（上）晚会之后：敢情美国学生素质不如日本学生 2024 意大利南部行 Highlights｜香奈儿2024/25早春度假系列、路易威登发布Color Blossom珠宝系列天河石新作......OneSight：2024新形势下中国品牌全球化营销白皮书-超越边界 Highlights｜路易威登再度推出核心价值广告特辑、FENTY BEAUTY ALLEY 限时快闪体验空间首登上海....周末也别闲着 Spring 全家桶版本更新：Spring Boot、Spring Security 和 Spring Modulith 告别3D高斯Splatting算法，带神经补偿的频谱剪枝高斯场SUNDAE开源了 Highlights｜用时装浪漫致意2024七夕情人节 Highlights｜延续优雅与经典的巴黎高定周第二次抗过敏战役打响 2024.05.05 Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动 CVPR最佳论文候选：NeRF新突破！用启发式引导分割去除瞬态干扰物

热点事件追踪