资深技术专家解读苹果Vision Pro的3D拍摄可否在手机端实现

科技

2023-09-12 15:09

文/VR陀螺

历经七年沉淀，苹果终于在2023 WWDC大会上正式推出其第一代空间计算平台终端——Vision Pro，敲响了进军XR消费端的战鼓，而后苹果在各地开设的开发者实验室也让开发者们得以从产品窥探苹果对空间计算的理解。

从苹果Vision Pro展示所有场景中，不得不说3D拍摄是其中最让人印象深刻的一个功能。演示视频中，一位用户佩戴着Vision Pro头显来观看一条空间视频，可以看到视频的“空间感”，画面运镜从右到左更是可以看到视频中人物的不同角度。

而在另一个片段中，用户按下头显上方的按键后，便开始录制Vision Pro前方的画面，同时Vision Pro的正面还会有光效变化来表示用户正在录制空间视频或照片。

如今拍照、拍视频已经成为普通消费用户最为高频及常用的功能，更诞生了庞大的视频内容市场。如今苹果着重推出的3D拍摄功能，是否会变成“下一个计算平台”的主流拍摄形式，谜底将在本文揭晓。

传感器更迭带来的时代机遇，正悄然来临

传感器是消费电子产品中的核心零部件，而基于传感器不同的属性和功能，带来了众多不同的应用场景和商业模式的延伸。

如基于GPS，让滴滴、美团、饿了么实现精准定位；基于激光雷达等传感器，让扫地机器人、服务机器人拥有“眼睛“；基于结构光传感器，让面部解锁、面容支付成为可能；基于手机的高清摄像头，让人人都可成为时代的记录者；基于毫米波雷达、超声波、毫米波以及GPS、IMU等，让汽车自动驾驶成为可能……

甚至可以说，每一代计算平台的变革，都离不开传感器的更迭。

被誉为“空间计算”开拓者的苹果Vision Pro，其机身上设有12个摄像头，5个传感器（其中1*LiDAR、2*结构光深度传感、2*IR红外传感），这些传感器分别用来处理空间环境感知、手势识别、三维建模和眼动追踪等功能，其摄像头和传感器的数量也比市面上的其他VR头显多得多，为的就是更好地实现3D空间感知和3D扫描功能，以及3D照片和视频的拍摄。

所有人都在畅想，苹果的Vision Pro将带来哪些新的场景，这些场景会带来哪些新的生态和商业模式。

抛开游戏、社交、3D影视等常见的场景之外，Vision Pro与之前的所有VR或者MR终端，其独有的场景创新莫过于“3D拍摄”，视频中所呈现出来的空间感，让人仿佛置身其中，这种方式区别于之前的全景照片/视频，其强调的并不是拍摄范围的扩大，而是空间深度信息的复现。

但视频中仅展示了使用头显拍摄，如果要将一种新的视频形式、格式推向广泛大众，用UGC来形成一个品类的内容生态，诞生诸如3D视频的Bilibili、抖音，显然仅靠头显是不够的。

毕竟售价3499美元（约人民币25515元）的苹果Vision Pro，在初期也注定会成为一部分人的“新鲜玩意儿”，以及一部分创作者的“生产力工具”，难以在短时间内让所有消费者欣然买单。

除了苹果Vision Pro，现有的终端设备如智能手机等能否实现3D拍摄，来填补内容生产力不足的空白？

带着以上疑问，VR陀螺与一位3D内容生产专家，KIRI Innovations的创始人Jack进行一次深度交流，探索3D拍摄的技术原理以及手机作为载体的可行性。

蓄谋已久的LiDAR传感器，究竟用来做什么？

很多人或许已经注意到，早在2020年发布的iPad Pro以及iPhone 12 Pro上，苹果悄悄增加了一个新的传感器——LiDAR。根据释义，这是一种通过激光的发射和接收返回信号的时间差进行距离测算的传感器，用于获得点云数据并生成数字化三维模型。

LiDAR这项技术主要利用脉冲激光来测量目标的距离，常应用于测绘学、考古学、地理学等领域，而苹果2020年推出iPad Pro、iPhone 12 Pro等产品之时，将这项技术落地到了消费电子领域。而且它既不像摄像头像素提升带来的清晰度提升，也不像广角带来了角度扩大那般显性，如果不是专业用户，根本感知不到LiDAR的功能和价值。

为什么苹果要将LiDAR应用到移动设备上？Jack进行了详细的解读。

首先，LiDAR对苹果来说最直接的益处就是改善拍照的对焦方式及其效果，因为其可以实现5米以内的距离检测。自动对焦或许看上去是平平无奇的功能，实际上在夜间或暗处是难以做到准确对焦的，而通过LiDAR能比光学对焦更快、更准确，无需手动对焦，从而进一步提升拍摄能力。

Polycam

其次，LiDAR的测距能力也能应用到空间扫描和定位上，例如ARKit SDK中所调用的深度信息也包括LiDAR所获取的信息，相对于其他平面摄像头传感器，LiDAR可获得更为精准的定位信息，精确到毫米级。

如2020年发布的ARKit 3.5，新的Scene Geometry API就是使用激光雷达扫描创建空间的3D地图，以区分地板、墙壁、天花板、窗户、门和座椅。该扫描仪能够在长达五米的距离内快速测量物体的长度、宽度、深度，从而使用户能够快速创建可用于物体遮挡的数字传真机-使数字物体看起来像在部分场景中融入了场景真实的对象。得益于“即时AR”支持，这些数字对象可以自动放置在空间中，而无需在平板电脑上晃来晃去并使相机具有空间感。

除了空间定位之外，LiDAR还可以辅助3D建模。但是由于LiDAR精度约5mm，当用于空间定位时可以实现精准的效果，但用于3D重建，特别是小的静态物体的重建时，其精度是不够的，并且仅用LiDAR无法实现色彩信息获取。所以也就衍生出一种搭配——使用LiDAR获取深度信息，结合RGB摄像头获取高精图片并贴合，而这就是苹果推出的Object Capture API的模式，3D建模应用《KIRI Engine》、《Polycam》和《Scanniverse》等应用都调用了该API。

关于该传感器在AR领域的应用，可参见当时VR陀螺的实测：《LiDAR效果实测！对苹果AR生态与AR眼镜有何意义？》

但由于其精度不够，所以Jack的3D平台应用《Kiri Engine》虽然也调用了LiDAR，不过其不但仅仅是用LiDAR来获取景深信息，还用其来获取相机的位姿（位置和姿态）定位，转而使用普通相机拍摄多角度照片，融合NERF和MVS混合算法来实现3D建模，该技术相比LumaAI所生成的mesh质量精度更高，且能够直接用AI实现模型三角面转四角面用于开发。

最后一项功能，也是本文将要讨论的最核心的功能，苹果的3D拍摄，实际学术名称为体三维视频（Volumetric 3D Video）。

Jack表示，苹果Vision Pro演示出来的这种带景深的3D视频实际上不需要3D重建技术，它也不是3D模型，因为这类内容是体三维视频，反过来这类内容无法直接应用到UE和Unity。而体三维（Volumetric 3D）是一种立体显示技术，通过这项技术可以直接看到具有物理景深的三维图像。

普通的视频主要有X轴和Y轴两个维度构成，而体三维在X轴和Y轴的基础上多了个Z轴，相当于景深轴。一般我们用像素（Pixel）来作为2D图片或视频的单位，而在体三维中会用到体素（Voxel）这个单位。

Jack进一步说明道：“要拍摄有景深效果的3D视频，就需要用到之前说的LiDAR+RGB摄像头的方法，但还有几个前提条件，一是需要视差，即需要至少两个有相同焦段的RGB摄像头，二是摄像头之间要保持一定的距离，就像苹果Vision Pro那样。”

如果是iPhone手机中的2个摄像头，结合LiDAR能否实现体三维视频拍摄？Jack表示，很早之前学术界一直在尝试，但并未获得很好的效果。其认为这也是苹果技术最为厉害之处，能实现别人做不到的事情。

此外，Jack还表示，体三维视频不同于2D图片或视频，3D形式文件的大小还要计算XYZ轴以外的通道，比如阿尔法通道（是指一张图片的透明和半透明度），例如苹果就有RGBA这种用于计算RGB和Alpha色彩空间的文件格式，体三维视频的文件一定会是4通道以上的，文件大小也将是倍数级的增长。所以苹果Vision Pro的内存以1T起步，而据了解从iPhone 15起，手机内存将从256GB起步。

LiDAR空间检测的内容量增加也会对体三维视频的内容体积和算力带来挑战。在对话中，Jack推测苹果的3D体三维视频在录制时可能会出现算力不足的问题，从而影响画质和帧率。其举例说明，如果平面画面的像素是4K，景深像素是1000pixel，相当于要渲染1000层4K画面，这对于算力的要求是指数级提升。因为在体三维视频中，每一层的深度信息都要渲染一次，LiDAR深度距离的渲染对算力有着非常大的需求，所以推测苹果可能会将体三维视频的像素进行压缩。

如果去掉LiDAR功能，单纯用RGB摄像头能否实现景深效果？

Jack认为理论上可以做到这个效果，但摄像头的距离限制取决于LiDAR。LiDAR可以测得5-15m距离，有了LiDAR，呈现出的景深效果质感表现上会更好。

由此可知，苹果在MR中实现的3D视频形式主要是体三维视频，而LiDAR在体三维视频拍摄中的空间感知方面发挥着重要作用。它作为在体三维视频中实现深度测量的工具，还能在未来的3D内容生产中带来革新，推测苹果将针对3D拍摄方面带来进一步的优化和突破。

结语

9月13日，苹果即将召开秋季新品发布会，此次苹果将带来全新的iPhone 15，也有业内人士称，苹果或将在手机端支持3D拍摄，也就是上文提到的体三维视频拍摄的功能。

VR陀螺很早之前也提到了同样的观点，而Jack也侧面证明了基于手机传感器的可行性，不过，将手机作为输入端可以大幅拓展内容生产效率，毕竟无论是短视频兴起还是滴滴打车普及，都离不开搭载了传感器的终端设备的普世化。

苹果的体三维视频将照片以一种新的呈现方式展现出来，刷新了人们对平面2D照片和视频的固有认知，3D视频未来有望成为新的主流图像显示形式。

现阶段人们在日常生活中接触到的信息已经在从2D转向3D，无论是艺术作品的3D化，游戏中对电影级3D资产的追求，还是影视作品在沉浸式音效和3D视效的提升等等，人们对有深度的、有沉浸感、有空间感的交互需求正在提升。

不管结论如何，发布会即将来临。苹果作为给3D视频“下定义”的角色，是否真的有新的惊喜，VR陀螺也将持续关注。

第一时间了解XR资讯

关注VR陀螺官网（vrtuoluo.cn）

VR陀螺的联系方式：

商务合作 | 投稿：

西瓜（微信号 18659030320）

六六（微信号 13138755620）

寻求免费曝光：

六六（微信号 13138755620）

投稿邮箱：[email protected]