Reasoning3D:用大语言模型开启3D世界理解与交互的新篇章
点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
三维分割技术是许多高科技领域中的基础。它使得机器能够识别和理解三维空间中的不同对象及其组成部分。
但传统的3D分割通常需要大量的手动标注工作,或者依赖于难以泛化到现实世界的复杂规则算法,只在特定的模型类别上才能奏效。
但现如今,具身智能的机器人、更智慧的AI Agent都要求在各种复杂的现实环境中对3D世界进行理解,并且强调更加自然的人机交互,这对现有的方法来说是个巨大的挑战。
为了克服这些挑战,来自魔芯(湖州)科技有限公司,浙江大学,中国科学技术大学等团队的研究人员提出了一项创新任务——零样本的三维推理分割。这项任务将“推理”引入3D分割当中,不仅要求系统能够识别和分割3D对象,而且还能够理解和执行基于上下文的复杂命令,如“分割出椅子上可以坐的部分”或“床的支撑部位”——这样的任务要求系统不仅要有识别3D对象的能力,还要有推理和解释的能力,并且能够以零样本的方式在实际场景中泛化。为此,来自魔芯科技、浙大、中科大等单位的研究人员提出了一种创新的方法,Reasoning3D,实现这种开放世界的、基于自然语言交互的3D分割任务。
核心思想:
Reasoning3D的秘密在于其结合了预训练的二维分割网络和大型语言模型(LLMs)。这一结合不仅让机器人能够理解复杂的自然语言指令,还能够在没有大量训练数据的情况下,实现对三维物体的高效精准分割。
具体而言,Reasoning3D先通过将三维模型经过多视角图像渲染,得到不同角度的观察。基于预训练的视觉编码器、大语言模型和解码器,利用用户的自然语言输入,对每个二维投影进行分割,并同时输出一个置信度评分和对于分割的文本回答。
在得到若干个不同角度的2D分割图之后,将这些分割结果进行3D融合,得到3D空间中的推理分割结果。
值得一提的是,Reasoning3D采用了创新的多阶段融合和细化机制,充分利用了多视角的语义信息和视点信息。在这一阶段,作者使用了包括top-k方法过滤2D标签、高斯地理距离加权和可见性平滑技术等方法,确保了分割结果的自然和连贯性。
实验结果:
作者定量测量了过去在开放标签分割的benchmark结果,显示Reasoning3D在自然语言输入情况下的开放标签分割能够实现良好的效果。
作者也采集了一批来自模型网站的用户手工制作和3D扫描的三维模型,并给予人工提示(Prompt)进行可推理的分割,其中,每个提示都不是直接指定区域,而是需要网络自行发现并理解空间位置,实验结果展示了Reasoning3D很好地实现了对于这种隐式标签的分割。
论文作者、来自魔芯科技的研究人员表示,本研究提出的零样本可推理3D分割任务的应用前景广阔,涵盖了机器人技术、物体操控、零件组装、自动驾驶、增强现实和虚拟现实(AR/VR)以及医疗应用等多个领域。团队过去在基于LLM的2D分割上有工作曾被CVPR2024接收,Reasoning3D是团队在LLM赋能的语义分割上取得的又一进展,魔芯科技作为一家从事消费级3D打印机研发生产和销售的公司,成立至今已获得VC机构两轮融资,在小米有品首发的KOKONI EC1 3D打印机创下了近年国内消费级3D打印机的众筹记录。团队希望用先进的3D视觉和AIGC工具改变3D打印机,使之成为“每个人都能使用”的创意工具。
为了推动三维推理和分割领域的进一步发展,研究团队公开了他们的代码、模型权重、部署指南和评估方式。这些资源可在Github上获取。研究团队相信,零样本推理三维分割开源成为三维计算机视觉系统朝着人类认知的灵活性和感知能力迈进的重要一步。
论文地址:https://arxiv.org/abs/2405.19326
项目主页:http://tianrun-chen.github.io/Reason3D/
开源代码:http://github.com/tianrun-chen/Reason3D-PyTorch/
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者