Redian新闻
>
高通的AR眼镜,可以实时3D重建了!

高通的AR眼镜,可以实时3D重建了!

公众号新闻



  新智元报道  

编辑:Aeneas
【新智元导读】依靠自监督神经网络单眼深度估计,高通眼镜可以实时3D重建了。

高通的AR眼镜,可以实时3D重建了!

最近,高通展示了他们使用自监督神经网络单眼深度估计,在AR眼镜和智能手机上实现实时3D重建的过程。

当使用者戴上AR眼镜后,就实时生成了房间的3D影像。

AR眼镜显示的视角,就是用户所观察到的视角。而这些图像被输送到高通的低延迟深度估计模型中,预测的深度和相机的6自由度被提供给了重建模型。

「自我监督」的意思,是使用重投影损失来监督每个单目深度模型。

而实时生成的3D网格和平面非常准确,使物理世界与数字世界的沉浸式AR体验得以无缝对接。

办公环境深度图的相对误差最小可达10-20%,而深度估计延迟小于9ms。

Qualcomm AI Research:最新的3D感知前沿研究

如此神奇的功能,背后的原理是怎样的呢?

在7月高通的一篇blog上,我们或许可以找到答案。

让我们来看看这篇博客——

世界是3D的,作为人类,我们是以3D的方式感知这世界世界。

与2D相比,3D感知具有许多优势,使我们能够更准确地感知和参与我们周围的世界——这就是为什么使机器具有这种能力这么重要。

例如,3D感知有助于在不同的光照条件下获得可靠的结果,为物体和场景识别提供可靠的线索,并且准确地估计尺寸、姿势和运动。

启用和增强关键用例

3D感知使得跨设备和行业的许多程序能够改善我们的生活,从XR和自动驾驶,到物联网、相机和移动设备。

例如,要实现沉浸式 XR,在6自由度运动估计、避障、物体放置、逼真渲染、手势估计以及虚拟环境中的交互中,3D感知都至关重要。

3D感知极大地促进了沉浸式XR

3D感知为自动驾驶提供极大的助力,自动驾驶利用来自摄像头、LiDAR和雷达的3D数据流,让更安全的驾驶成为可能。

3D感知还可用于3D地图重建,它可以将车辆定位在道路上,寻找可通行的路面,避开障碍物,估计车辆、行人等物体的轨迹,进行路径规划等等。

3D感知需要克服的新挑战

为了更好地理解世界,3D感知依赖于多项任务,其中许多任务在概念上与2D感知很相似。

现在,使3D感知的AI SOTA模型成为现实,并在受功率、热和性能限制的边缘设备上进行大规模的实际部署,一直是很大的挑战。

值得注意的是,有两类挑战很突出——数据和实施挑战。

与像素排列在均匀网格上的2D图像不同,3D点云非常稀疏且不均匀,这就需要在可访问性与内存之间取得一个平衡。

3D感知面临数据和实施挑战

使大规模3D感知成为现实

Qualcomm AI Research领导的这项3D感知研究,独特之处在于开发了全新的AI技术。

高通的专家通过全栈AI研究构建真实世界的部署,并创建了一个节能平台,使3D感知无处不在。

专家使用Qualcomm AI Stack工具包和SDK进行了全栈优化,实现了许多3D感知突破。

这其中的四个关键领域——深度估计、目标检测、后估计和场景理解的细节,如下所示。

3D感知研究的四个关键领域

跨不同模式的准确深度估计

深度估计和3D重建是从2D图像创建场景和物体的3D模型的感知任务。我们的研究利用输入配置,包括单个图像、立体图像和 3D 点云。

研究院已经为单目和立体图像开发了 SOTA 监督和自我监督学习方法,这些方法不仅高效,而且非常准确。

除了模型架构之外,全栈优化还包括使用DONNA(提取最佳神经网络架构)进行神经架构搜索,以及使用AI 模型效率工具包 (AIMET)进行量化。

因此,高通在手机了展示了世界上第一个实时单眼深度估计,可以从单个图像创建3D图像。

高效准确的3D物体检测

3D物体检测是指寻找单个物体的位置和区域的感知任务。

例如,目标可能是在用于自动驾驶的 LiDAR 数据上检测所有车辆和行人的相应 3D 边界框。

专家正在使3D点云中的高效对象检测成为可能。

为此,他们开发了一种基于变换器的高效3D对象检测架构,这个架构利用的是在极地空间中提取的2D伪图像特征。

凭借更小、更快和更低功耗的模型,专家在LiDAR 3D点云上的车辆、行人和交通标志检测方面取得了最高的准确度分数。

低延迟和准确的3D姿势估计

3D姿态估计是指寻找物体方向和关键点的感知任务。

对于XR应用程序,对于在虚拟环境中与虚拟对象进行直观交互,准确且低延迟的手部和身体姿势估计是至关重要的。

专家开发了一种具有动态改进功能的高效神经网络架构,以减少手部姿势估计的模型大小和延迟。

这个模型可以从2D图像解释3D的人体姿势和手部姿势,计算可扩展架构迭代改进了关键点检测,误差小于5毫米——这就实现了最佳的平均3D误差。

3D场景理解

3D场景理解是指将场景分解为其3D和物理组件的感知任务。

专家开发了世界上第一个用于场景理解的基于变换器的逆向渲染。

经过端到端训练的管道从室内图像估计基于物理的场景属性,例如房间布局、表面法线、反照率(表面漫反射率)、材料类型、对象类别和照明估计等。

高通的AI模型可以更好地处理场景组件之间的全局交互,从而更好地消除形状、材料和照明的歧义。

目前,专家在所有3D感知的任务上都取得了SOTA结果,并支持高质量的AR应用程序,例如将逼真的虚拟对象插入到真实的场景中。

这个方法可以正确地估计光照,以逼真地插入物体,例如兔子

更多3D的感知突破即将到来

现在,高通的专家正在3D感知方面进行更多的研究,并且有望在神经辐射场 (NeRF)、3D模仿学习、神经SLAM(同步定位和映射)以及RF (Wi-Fi/5G) 中的3D场景理解方面取得更多突破。

此外,随着机器学习研究工作的推进,高通的感知研究会比3D感知广泛得多。

在XR、相机、移动、自动驾驶、物联网等领域,会有更多感知设备出现。

我们的日常生活,在未来会大不相同。

参考资料:
https://www.reddit.com/r/MachineLearning/comments/z60wuh/r_qualcomm_demos_3d_reconstruction_on_ar_glasses/



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
数字人IP获百万粉丝后,李未可做出了一款户外AR眼镜不给买VR眼镜,美10岁男孩一枪打死亲妈,被抓时还问:我的快递到了吗?低价开团丨香甜软糯的榴莲果肉,果肉饱满、果核超小,终于可以实现榴莲自由了!老太太活到122岁的秘诀AR眼镜走向独立,从一个配件开始疯了! 买VR眼镜被拒, 10岁美国儿童竟开枪杀母...掀起消费新风口!“真”AR眼镜要分为几步走?只是一群普普通通的人,想要留住普普通通的豹AR眼镜正加速走来!最晚2026!苹果研发的AR眼镜,又放鸽子了?阿里达摩院招3D重建方向RI实习生蒋介石上了天堂 遇见孙中山透过《实时万象》,探寻千亿级「实时互动」市场边界高通的PC CPU芯片有了进一步的消息消息称苹果AR眼镜推迟至2025年,XR头戴设备再曝VR眼镜是如何成为心理医生“必备武器”的?中期选举:努力可以翻红,可以质疑不要否定选举,要有耐心,日拱一卒重建民主XR市场开年不顺:微软AR/VR整体裁员,苹果无限期推迟AR眼镜判例译析 | 证人以实时视频传输方式作证被允许么?AR眼镜或成汽车标配直播预告:消费级AR眼镜,现在走到哪一步?|量子位智库沃尔沃退出内燃机研制,推特限制特斯拉负面广告,比亚迪高端汽车品牌定名仰望,苹果首款AR眼镜或推迟上市,这就是今天的其它大新闻!App Lab平台上线内容已超1400款;谷歌将在加拿大进行AR眼镜原型机测试Niantic展示由骁龙AR2 Gen 1驱动的AR眼镜原型机;14款PSVR2游戏上架预售疯了!星巴克一员工在一非裔顾客杯子上写“猴子” ,临时工被解雇了!!买VR眼镜被拒! 10岁美国儿童竟开枪杀母3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!惊悚!女人睡前忘摘隐形眼镜,医生最后从她眼中取出23只已成功移植全球首例3D生物打印耳朵!3D Bio Therapeutics引领3D生物打印技术观看3D电影需再花钱自备眼镜,消协怎么看?AR眼镜语音转文字实测!效果像开了弹幕,对话记录可保存回溯吸进屏为何能绑架中共网易发布说明回应暴雪,强国交通完成内测,法拉第未来宣布与黄冈市合作,苹果无限期推迟AR眼镜,这就是今天的其他大新闻!看3D电影还得自己掏钱买眼镜,网友:就像去餐馆吃饭,请带筷子秋游河溪--看不够的 Erindale 公园离婚的亢奋《悠悠岁月》(5)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。