Redian新闻
>
自然语言融入NeRF,给点文字就生成3D图的LERF来了

自然语言融入NeRF,给点文字就生成3D图的LERF来了

公众号新闻

机器之心报道

编辑:陈萍、小舟
NeRF 大家都很熟悉了,但是你听说过 LERF 吗?本文中,来自 UC 伯克利的研究者将语言嵌入到 NeRF 中,并在 3D 场景中实现灵活的自然语言查询。


NeRF(Neural Radiance Fields)又称神经辐射场,自从被提出以来,火速成为最为热门的研究领域之一,效果非常惊艳。然而,NeRF 的直接输出只是一个彩色的密度场,对研究者来说可用信息很少,缺乏上下文就是需要面对的问题之一,其效果是直接影响了与 3D 场景交互界面的构建。


但自然语言不同,自然语言与 3D 场景交互非常直观。我们可以用图 1 中的厨房场景来解释,通过询问餐具在哪,或者询问用来搅拌的工具在哪,以这种方式就可以在厨房里找到物体。不过完成这项任务不仅需要模型的查询能力,还需要能够在多个尺度上合并语义等。


本文中,来自 UC 伯克利的研究者提出了一种新颖的方法,并命名为 LERF(Language Embedded Radiance Fields),该方法将 CLIP(Contrastive Language-Image Pre-training)等模型中的语言嵌入到 NeRF 中,从而使得这些类型的 3D 开放式语言查询成为可能。LERF 直接使用 CLIP,无需通过 COCO 等数据集进行微调,也不需要依赖掩码区域建议。LERF 在多个尺度上保留了 CLIP 嵌入的完整性,还能够处理各种语言查询,包括视觉属性(如黄色)、抽象概念(如电流)、文本等,如图 1 所示。


论文地址:https://arxiv.org/pdf/2303.09553v1.pdf

项目主页:https://www.lerf.io/


LERF 可以实时交互地为语言提示提取 3D 相关示图。例如在一张有小羊和水杯的桌子上,输入提示小羊、或者水杯,LERF 就可以给出相关 3D 图:


对于复杂的花束,LERF 也可以精准定位:


 厨房中的不同物体:


方法


该研究通过与 NeRF 联合优化语言场构建了新方法 LERF。LERF 将位置和物理尺度作为输入并输出单个 CLIP 向量。在训练期间,场(field)使用多尺度特征金字塔(pyramid)进行监督,该金字塔包含从训练视图的图像裁剪(crop)生成的 CLIP 嵌入。这允许 CLIP 编码器捕获不同尺度的图像语境,从而将相同的 3D 位置与不同尺度的语言嵌入相关联。LERF 可以在测试期间以任意尺度查询语言场以获得 3D 相关性映射。

由于从多尺度的多个视图中提取 CLIP 嵌入,因此通过 LERF 的 3D CLIP 嵌入获得的文本查询的相关性映射与通过 2D CLIP 嵌入获得的相比更加本地化(localized),并且是 3D 一致的,可以直接在 3D 场中进行查询,而无需渲染多个视图。


LERF 需要在以样本点为中心的体积上学习语言嵌入场。具体来说,该场的输出是包含指定体积的图像裁剪的所有训练视图的平均 CLIP 嵌入。通过将查询从点重构为体积,LERF 可以有效地从输入图像的粗略裁剪中监督密集场,这些图像可以通过在给定的体积尺度上进行调节以像素对齐的方式呈现。


LERF 本身会产生连贯的结果,但生成的相关性映射有时可能是不完整的,并且包含一些异常值,如下图 5 所示。


为了规范优化的语言场,该研究通过共享瓶颈引入了自监督的 DINO。


在架构方面,优化 3D 中的语言嵌入不应该影响底层场景表征中的密度分布,因此该研究通过训练两个独立的网络来捕获 LERF 中的归纳偏置(inductive bias):一个用于特征向量(DINO、CLIP),另一个用于标准 NeRF 输出(颜色、密度)。


实验


为了展示 LERF 处理真实世界数据的能力,该研究收集了 13 个场景,其中包括杂货店、厨房、书店、小雕像等场景。图 3 选择了 5 个具有代表性的场景,展示了 LERF 处理自然语言的能力。


图 3。

图 7 为 LERF 与 LSeg 的 3D 视觉对比,在标定碗里的鸡蛋中,LSeg 不如 LERF:


图 8 表明,在有限的分割数据集上训练的 LSeg 缺乏有效表示自然语言的能力。相反,它仅在训练集分布范围内的常见对象上表现良好,如图 7 所示。


不过 LERF 方法还不算完美,下面为失败案例,例如在标定西葫芦蔬菜时,会出现其他蔬菜:


探寻隐私计算最新行业技术,「首届隐语开源社区开放日」报名启程


春暖花开之际,诚邀广大技术开发者&产业用户相聚活动现场,体验数智时代的隐私计算生态建设之旅,一站构建隐私计算产业体系知识:

  • 隐私计算领域焦点之性

  • 分布式计算系统的短板与升级策略

  • 隐私计算跨平台互联互通

  • 隐语开源框架金融行业实战经验

3月29日,北京·798机遇空间,隐语开源社区开放日,期待线下面基。

点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开启报名丨第二十届自然语言处理青年学者研讨会全日程公开2022南美南极行(15)巴西 萨尔瓦多开拓AI生成3D视频新赛道,「深氧科技」获汉能创投千万级天使轮融资|36氪首发舍不得给医生钱,给点别的也行啊!BB鸭 | 特斯拉将取消强制单踏板模式;问界M9专利图曝光;网信办就生成式AI管理​办法征求意见;小米13 Ultra定档下周集中发售!央企主题ETF来了,"中特估"行情继续?ICLR 2023 | DM-NeRF:从2D图像中实现3D场景的几何分解与编辑(已开源)OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成“花20万把家装成3D效果?!”推开门后给我看呆了哈哈哈SIGGRAPH 2023|DreamFace:一句话生成3D数字人?一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?2023元月小惊喜一行字实现3D换脸!UC伯克利提出「Chat-NeRF」,说句话完成大片级渲染这个傻瓜式地图神器能绘制等高线,还能生成3D地形!(附神器下载)一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害ICLR 2023 Spotlight | 2D图像脑补3D人体,衣服随便搭,还能改动作单卡30秒跑出虚拟3D老婆!Text to 3D生成看清毛孔细节的高精度数字人,无缝衔接Maya、Unity等制作工具LERF:当CLIP遇见NeRF!让自然语言与3D场景交互更直观哪个城市搬来西雅图的人最多?西雅图的人又搬去哪一个城市呢?ICLR 2023 Spotlight | 2D图像脑补3D人体:衣服随便搭,还能改动作ChatGPT产品潮来了:融入Slack、读PDF,创新不断苹果iPhone 15系列外观再确认!CAD图、细节渲染图全曝光微软3D生成扩散模型RODIN,秒级定制3D数字化身央企主题ETF来了!9家头部公募集体上报,跟踪三大央企指数,还能上车吗?佛州西南区的运河Cell Reports Medicine亮点文章| 王奇慧研究员等合作研发抗新冠病毒广谱IgM抗体OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用《知识》自古是被当作私有财产讲座预告 | 软件工程学院博学论坛第十五期:自然语言处理与大型语言模型的挑战与探索机器人领位,奥兰多川味火锅一家自然语言处理AI公司的末世之舞:倒在GPT大模型的狂潮到来前复旦大学NLP实验室《自然语言处理导论》 网络初版发布网易数帆低代码开发平台升级:加入智能大模型,可用自然语言描述快速开发应用第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。