Redian新闻
>
Transformer解码真实场景!Meta推出70M参数SceneScript模型

Transformer解码真实场景!Meta推出70M参数SceneScript模型

公众号新闻



  新智元报道  

编辑:alan
【新智元导读】近日,来自Meta的研究人员将Transformer用于解码真实世界的场景,并转化为几何表示,效果超越了传统的点云、网格或辐射场,只需70M参数,就能完成虚拟叠加现实的炫酷效果。

抛弃传统方法,只采用Transformer来解码真实场景!

近日,来自Meta的研究人员推出了SceneScript,只需要70M参数,仅采用编码器解码器架构,就能将真实世界的场景转化为几何表示。

论文地址:https://arxiv.org/pdf/2403.13064.pdf

SceneScript是一种用于表示和推断场景几何图形的方法,使用自回归结构化语言模型和端到端学习。

SceneScript可以助力AR和AI设备理解物理空间的几何形状,比如下面这个演示,利用Aria眼镜拍摄的素材,SceneScript可以获取视觉输入并估计场景元素(墙壁、门窗等)。

是不是感觉一下子走到了虚拟和现实的交界?

用这个技术来帮助开发AR或者MR游戏应该是妥妥的,小编表示期待地搓搓手。

再看下面这个,将SceneScript技术叠加到Meta Quest的显示画面上,现实世界瞬间变得方方正正,还挺萌的。

同时我们也可以发现,SceneScript预测的场景元素可以任意扩展,不断包含进来新的建筑特征、对象,甚至还可以将对象进行分解。

SceneScript是Meta RealityLabs Research的一个研究项目,整个模型分为编码器和解码器两个部分。

其中,点云编码器由一系列3D稀疏卷积块组成,这些卷积块将大点云汇集到少量特征中。

随后,Transformer解码器利用编码器的特征作为交叉注意力的上下文,自回归生成token。

编码器和解码器都只有大约35M参数,整个模型训练了3天,大约200k次迭代。

模型在实际应用中的推理速度也很不错,即使直接使用PyTorch中原始的Transformer(未经优化),解码256个token(相当于一个包含墙壁、门、窗和对象边界框的中等大小的场景),也只需要大约2-3秒。

SceneScript是完全在模拟器中训练的,使用Project Aria眼镜上捕获的内容序列,而没有使用真实世界的数据。训练完成之后,模型又在真实场景中进行了验证。

另外,在适应其他设备时,也可以针对不同类型镜头的不同相机型号对模型进行微调。

不过作者也表示,SceneScript仅在室内场景中进行了训练,因此对室外场景的推断可能会导致不可预测的输出。

目前,SceneScript仅供Meta的内部研究团队使用。

SceneScript

区别于传统的将场景描述为网格(meshes),体素网格(voxel grids),点云(point clouds)或辐射场(radiance fields)的传统方法,

SceneScript使用场景语言编码器-解码器架构,直接从编码的视觉数据中推断出结构化语言命令集。

工作流程

如上图所示,给定一个以自我为中心的环境视频,SceneScript直接预测由结构化场景语言命令组成的3D场景表示。

第一行表示整个工作流程,放大一下就是下面这样子:

SceneScript先从VR眼镜等设备中,拿到图像或点云表示的视觉信息,

然后将视觉信息编码为描述物理空间的潜在表示形式,

再将潜在表示解码为简洁、参数化且可解释的语言(类似CAD),

最后,3D解释器将上面的语言转换为物理空间的几何表示。

优势

SceneScript以纯文本形式自回归地预测手工设计的结构化语言命令,这种形式有几个明显的优点:

首先,作为纯文本,占用空间很小,将大型场景的内存要求降低到只需要几个字节。

其次,这种命令旨在产生清晰且定义明确的几何图形,并且,模型所使用的make_door(*door_parameters)等高级参数命令,在设计上是可解释、可编辑和语义丰富的。

另外,可以通过简单地向语言中添加新的结构化命令,来无缝集成新的几何实体。

最后,这种解决方式也为未来一些潜在的新应用提供了参考,例如编辑场景、查询场景或者聊天交互。

另外,由于语言模型需要大量数据来训练响应的结构化语言命令,而对于当前应用没有合适的数据集。

为了训练SceneScript,研究人员于是自己造了一个名为Aria Synthetic Environments的大规模合成数据集,该数据集由100k个高质量的室内场景组成,包括以自我为中心的逼真场景演练和对应的标签。

对于每个场景,使用来自Project Aria的一整套传感器数据来模拟以自我为中心的轨迹,还包括深度和实例分割,而架构布局的基本事实采用上面提到的自定义的结构化语言命令给出。

上图展示了Aria生成场景的随机样本,显示了布局、灯光和物体放置的多样性,以及俯视图、模拟轨迹(蓝色路径)、深度、RGB和对象实例的渲染,最后是场景点云。

SceneScript可以轻松扩展到新任务,同时保持视觉输入和网络架构的固定性。

网络架构

SceneScript 的管道是一个简单的编码器-解码器体系结构,它使用视频序列并以标记化格式返回SceneScript语言。

作者研究了三种编码器变体:点云编码器、摆姿势图像集编码器和组合编码器,结果表明,解码器在所有情况下都保持不变。

编码器从场景的视频演练中以1D序列的形式计算潜在场景代码。解码器设计为将这些1D序列用作输入。这样就可以在一个统一的框架内整合各种输入模式。

上图展示了SceneScript的核心管线。原始图像和点云数据被编码为潜在代码,然后自回归解码为描述场景的一系列命令。使用自定义构建的解释器显示可视化效果。

值得注意的是,对于本文中的结果,点云是使用Aria MPS从图像中计算出来的,没有使用专用的RGB-D / 激光雷达传感器。

实验结果

上图为在Aria Synthetic Environments测试集上,SceneScript模型和SOTA方法之间的定性比较。

像SceneCAD这样的分层方法会受到错误级联的影响,这会导致边缘预测模块中缺少元素。而RoomFormer(一种拉伸为3D的2D方法)主要受到轻微捕获的场景区域的影响,这些区域在密度图中留下了不明显的信号。

表中数据给出了Aria合成环境的布局估计,SceneScript方法与近期相关工作之间的定量比较。

参考资料:
https://www.projectaria.com/scenescript/



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一定要送他人喜欢而不是我们自己喜欢的东西作为礼物记住这一点就行了Mamba和Transformer合体!Jamba来了:超越Transformer!扩散模型和Transformer引爆时序方向!中文实录!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满高效涨点!用Transformer模型发Nature子刊(文末送书)人人都能当周杰伦!Suno作曲,ChatGPT写词,网友用Transformer造出神曲!Transformer仍是2024发论文神器OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱性能突破Transformer!Mamba引爆AI圈芝麻开花年年高SSM 能取代 Transformer 搞出更「牛」的大模型吗?CoPE论文爆火!解决Transformer根本缺陷,所有大模型都能获得巨大改进AI 大神首次承认参与神秘模型 Q* 研发,把 OpenAI 吓坏了 | Transformer 作者专访Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了为什么Transformer一般使用LayerNorm?纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023图灵奖得主Bengio团队新作:注意力可视为RNN!新模型媲美TransformerYOCO:打破传统Decoder-only架构,内存消耗仅为Transformer的六分之一7人创业、1人投敌!Transformer 八子谷歌坐冷板凳5年再成老黄座上宾多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊Meta革命新架构掀翻Transformer!无限上下文处理!Mamba架构第一次做大!混合Transformer,打败TransformerBengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战全面超越Transformer!清华蚂蚁推出纯MLP架构,长短程时序预测大幅提升【七律】成都打110和911的那些奇葩Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量张鹏对谈安克阳萌:GPU 和 Transformer 可能是中间态,机器人+大模型会诞生超级品类大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进权力和财富的传承CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。