Redian新闻
>
LERF:当CLIP遇见NeRF!让自然语言与3D场景交互更直观

LERF:当CLIP遇见NeRF!让自然语言与3D场景交互更直观

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:机器之心 | 编辑:陈萍、小舟
NeRF 大家都很熟悉了,但是你听说过 LERF 吗?本文中,来自 UC 伯克利的研究者将语言嵌入到 NeRF 中,并在 3D 场景中实现灵活的自然语言查询。


NeRF(Neural Radiance Fields)又称神经辐射场,自从被提出以来,火速成为最为热门的研究领域之一,效果非常惊艳。然而,NeRF 的直接输出只是一个彩色的密度场,对研究者来说可用信息很少,缺乏上下文就是需要面对的问题之一,其效果是直接影响了与 3D 场景交互界面的构建。


但自然语言不同,自然语言与 3D 场景交互非常直观。我们可以用图 1 中的厨房场景来解释,通过询问餐具在哪,或者询问用来搅拌的工具在哪,以这种方式就可以在厨房里找到物体。不过完成这项任务不仅需要模型的查询能力,还需要能够在多个尺度上合并语义等。


本文中,来自 UC 伯克利的研究者提出了一种新颖的方法,并命名为 LERF(Language Embedded Radiance Fields),该方法将 CLIP(Contrastive Language-Image Pre-training)等模型中的语言嵌入到 NeRF 中,从而使得这些类型的 3D 开放式语言查询成为可能。LERF 直接使用 CLIP,无需通过 COCO 等数据集进行微调,也不需要依赖掩码区域建议。LERF 在多个尺度上保留了 CLIP 嵌入的完整性,还能够处理各种语言查询,包括视觉属性(如黄色)、抽象概念(如电流)、文本等,如图 1 所示。


论文地址:https://arxiv.org/abs/2303.09553

项目主页:https://www.lerf.io/


LERF 可以实时交互地为语言提示提取 3D 相关示图。例如在一张有小羊和水杯的桌子上,输入提示小羊、或者水杯,LERF 就可以给出相关 3D 图:


对于复杂的花束,LERF 也可以精准定位:


 厨房中的不同物体:


方法


该研究通过与 NeRF 联合优化语言场构建了新方法 LERF。LERF 将位置和物理尺度作为输入并输出单个 CLIP 向量。在训练期间,场(field)使用多尺度特征金字塔(pyramid)进行监督,该金字塔包含从训练视图的图像裁剪(crop)生成的 CLIP 嵌入。这允许 CLIP 编码器捕获不同尺度的图像语境,从而将相同的 3D 位置与不同尺度的语言嵌入相关联。LERF 可以在测试期间以任意尺度查询语言场以获得 3D 相关性映射。

由于从多尺度的多个视图中提取 CLIP 嵌入,因此通过 LERF 的 3D CLIP 嵌入获得的文本查询的相关性映射与通过 2D CLIP 嵌入获得的相比更加本地化(localized),并且是 3D 一致的,可以直接在 3D 场中进行查询,而无需渲染多个视图。


LERF 需要在以样本点为中心的体积上学习语言嵌入场。具体来说,该场的输出是包含指定体积的图像裁剪的所有训练视图的平均 CLIP 嵌入。通过将查询从点重构为体积,LERF 可以有效地从输入图像的粗略裁剪中监督密集场,这些图像可以通过在给定的体积尺度上进行调节以像素对齐的方式呈现。


LERF 本身会产生连贯的结果,但生成的相关性映射有时可能是不完整的,并且包含一些异常值,如下图 5 所示。


为了规范优化的语言场,该研究通过共享瓶颈引入了自监督的 DINO。


在架构方面,优化 3D 中的语言嵌入不应该影响底层场景表征中的密度分布,因此该研究通过训练两个独立的网络来捕获 LERF 中的归纳偏置(inductive bias):一个用于特征向量(DINO、CLIP),另一个用于标准 NeRF 输出(颜色、密度)。


实验


为了展示 LERF 处理真实世界数据的能力,该研究收集了 13 个场景,其中包括杂货店、厨房、书店、小雕像等场景。图 3 选择了 5 个具有代表性的场景,展示了 LERF 处理自然语言的能力。


图 3。

图 7 为 LERF 与 LSeg 的 3D 视觉对比,在标定碗里的鸡蛋中,LSeg 不如 LERF:


图 8 表明,在有限的分割数据集上训练的 LSeg 缺乏有效表示自然语言的能力。相反,它仅在训练集分布范围内的常见对象上表现良好,如图 7 所示。


不过 LERF 方法还不算完美,下面为失败案例,例如在标定西葫芦蔬菜时,会出现其他蔬菜:




点击进入—>【计算机视觉】微信技术交流群


最新CVPP 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI + 元宇宙专场直播预告:AI + VSLAM 空间感知交互技术和超写实及风格化 3D 数字人生成ICLR 2023 | DM-NeRF:从2D图像中实现3D场景的几何分解与编辑(已开源)网易数帆低代码开发平台升级:加入智能大模型,可用自然语言描述快速开发应用秘密花园根茎生长可视化套装,全景透明容器,直观感受大自然神奇变化Can a Cleanup Campaign Cleanse This Misogynist Online Forum?胡泳:当ChatGPT产生幻觉,一个“幻觉时代”要来临了ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建世间所有遇见,都是遇见你自己我要不要选考AP英语语言与写作?考试例题,最新5分率大盘点!名师备考方法分享!打造文创IP遇见博物馆 中创文旅获数千万元A+轮融资|36氪首发品尝玫瑰的浪漫一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景对话BRAF:达拉非尼+曲美替尼进入医保,为更多BRAF突变晚期NSCLC患者带来长期生存新希望当清明节遇见逾越节,死亡的阴霾就会遇见阳光!新作速览|本土化语言与自然生态适应:西藏自然科学博物馆 / 山鼎设计开启报名丨第二十届自然语言处理青年学者研讨会全日程公开自然语言融入NeRF,给点文字就生成3D图的LERF来了高效低成本构建元宇宙场景:NeRF神经辐射场亲友重来 蓬荜生辉 陈湃(巴黎)你真的有让自己「好好休息」吗?让自己松弛下来的5个方法让PyTorch创始人直呼「Amazing」的视频「脑补」,动态场景NeRF合成速度提升百倍第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%一行字实现3D换脸!UC伯克利提出「Chat-NeRF」,说句话完成大片级渲染聚焦 | 人大区域国别论坛(第十六期) 伊朗的语言与中国的边界成功举行复旦大学NLP实验室《自然语言处理导论》 网络初版发布一家自然语言处理AI公司的末世之舞:倒在GPT大模型的狂潮到来前所有遇见,都是遇见自己对话BRAF:达拉非尼+曲美替尼NSCLC适应症纳入医保,奏响BRAF突变治疗“低价优效”超强音!讲座预告 | 软件工程学院博学论坛第十五期:自然语言处理与大型语言模型的挑战与探索当AR与3D技术结合,会迸发出怎样的火花?匹兹堡记事 - 2022.12.26 陕西面馆七絶 瑞兔呈祥寄望癸卯35张图,直观理解Stable DiffusionICLR 2023 | PromptPG:当强化学习遇见大规模语言模型2023 除夕夜,简单的年夜饭和这两天吃喝
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。