普通人的元宇宙第一站,谁是向导?
对于电影爱好者来说,面部捕捉是一个既熟悉又陌生的概念,熟悉是因为在魔幻电影当中,动作捕捉和面部捕捉是常用技术,不少经典非人类角色,都是依靠这两项技术完成的。正是技术进步,我们才得以见证《指环王》里恢弘的中土大陆和其中多样的种族,《阿凡达》里的外星奇观,也能看到,人类在荧幕上与其他物种建立联系。
说陌生,则是因为对于大多数人而言,面部捕捉是一项听过见过,但是没体验过的技术。我们一直是这项技术的旁观者,而非亲历者。
但技术进步的曲线,往往有两条分支,一支往前,向更远的地方进发;另一支往下,从高成本到低成本,从影响寥寥数人,到惠及千万大众。有时候,两条线也会齐头并进,交织在一起,产生更大的能量。
在 2016 年的电影《魔兽》中,依靠动作捕捉和面部捕捉,亚洲洲草候选人吴彦祖在电影中扮演了一位丑陋邪恶的兽人古尔丹。
在动作捕捉和面部捕捉领域,甚至还有一位巨星名叫安迪·瑟金斯,他扮演了《指环王》三部曲里的关键人物咕噜,以及《猩球崛起》三部曲的主角大猩猩凯撒。
不过,尝鲜过元宇宙 VR 应用的用户,可能已经深刻意识到,这里的「我」,还远远不是真正的「我」,这里建模粗糙,甚至一开始都没法把用户的腿给映射进去,更别说用户丰富的表情了。
所以,有时候,作为尝鲜者,我会羡慕起电影表演中的面部捕捉技术,希望元宇宙当中的我,不是那个如同 QQ 秀一样的卡通小人,而是能纵横中土大陆,艾泽拉斯世界或者潘多拉星球的幻想者。
但也不是没有例外,爱奇艺热播的首个虚拟现实游戏闯关真人秀《元音大冒险》,将一众炫酷科技带到了真人秀的节目制作中,让嘉宾得以登上虚拟世界——元音大陆,开启了一场奇趣爆笑的闯关冒险之旅。
这里可能是为数不多有「精致感」的元宇宙内容,这种精致感,正是源自虚拟人物与对应明星的「神似」,这种「神似」背后,则是前面提到的面部捕捉技术。
但,想要实现工业级到消费级的跨越,自然是难度重重。
在如今成熟的工业电影当中, 实现精确的面部捕捉,几乎遵循着高投入高质量产出的规律。
这里的投入既包括了时间也包括了金钱,就拿曾经给我们带来视觉奇观的《阿凡达》来说,导演詹姆斯·卡梅隆从萌生拍摄的想法再到项目落地,当中花去了 10 年的时间。
而在电影花絮当中,每个演员都需要在面部进行打黑点标记,再由面前的摄像机捕捉,同时,周围再分布几台摄像机进行肢体动作的捕捉。
当所有剧情拍摄完毕之后,并不意味着电影制作已经结束,后续还需要大致一倍甚至两倍的拍摄时间对摄像机采集的面部表情和肢体动作,一同拟合到虚拟人物当中。
且为了达到足够震撼的结果,往往需要庞大的后期团队一同完成。这种传统的工业级流水线,效果虽好,精度拉满,走的是好事多磨路线,放弃了速度。
面部捕捉的速度和精度,有些类似于鱼与熊掌,在 AI 算法的设计领域,它们与功耗通常构成了一个不可能的三角形,也就是「三元悖论」,通俗一点就是一个三难选择。
人脸当中有着 43 块肌肉来协同表达我们的情感,很多表情既复杂又细微,不同表情的区别,往往也只有一河之隔。
想要在元宇宙里精确地表达出真情实感,或者说是将现实当中的面部微表情传达到虚拟世界中,其捕捉精度必须达到一定的程度,需要准确掌握数百个特征点,再配合模型算法进行还原。
值得注意的是,我们提及的「元宇宙」并非是创作,可以拥有一定的后期制作,想要身临其感,并做到实时反馈,面部捕捉和传达需要保持同步计算,并实时反馈。
即便按照电影 24 帧的标准来看,它仍然需要每秒内实时处理 24 帧高精度的图片,从几百个特征点里抓取重点,完成对表情的重构。
光是对复杂而灵动的人脸进行面部捕捉,已经是个工程量巨大的工作了,人脸之外,还有很多很多外部因素和突发情况,也会影响面部捕捉的效果,在元宇宙里,我们不可能创造一个电影影棚,专业打光和后期电脑来完成这项工作。
一切,都是当下发生,当下记录。
所以,想要更好的效果,还需要把不同的光影变化,所佩戴头盔、摄像头等设备的抖动,以及面部部分遮挡等客观、主观等因素加入在内。
总之,面部捕捉,听起来可能只不过是一个图像捕捉的技术,但实际上,它需要把与面部相关的各种信息点,以及微表情变化,光线环境等因素考虑在内。
它并不是人脸的肌肉变化一一呈现到虚拟世界里,而是把现实当中的情绪,准确而实时的传递过去。
对于面部表情的记录和呈现,实际上我们身边早已有了相应的应用,也就是大部分厂商在聊天 app 当中加入的「动画表情」。
它的作用像是一个丰富聊天的娱乐功能,精确度要求不高,也只能记录几个比较有特征的表情,细微表情实际上很难被呈现出来。
对于爱奇艺《元音大冒险》这档节目来说,「动画表情」这种形式远远不够。
挑战的是面部捕捉算法的鱼与熊掌兼得的难题,并且人脸面部捕捉的难度,要大于人类动作捕捉,和动物面部捕捉。
因而硬件,软件,硬件对软件的支持度,这三个层面,决定了骁龙能不能做好面部捕捉,也就是说需要手机芯片平台强大的底层算力以及神经网络算法支撑。
不过对于面部捕捉,或者说利用面部捕捉技术参与到《元音大冒险》节目的制作,尚属首次。
首先是基于原有的技术对相应的算法进行调试,先从精度入手,训练一个计算量庞大的复杂模型,尽可能的覆盖所有可能性的表情,然后反复对比调试,完成适配节目录制的需求。
再考虑到减小计算量而进行「裁剪计算」,换句话说就是减负,但前提是保面部捕捉一定精度的情况下,进行减少计算量。
此前,对于面部数据计算的 AI 算法是使用手机 CPU,在保持一定精度的情况下,只能维持到 30fps,且在高频率的计算过程中,会容易引起设备的积热,和在部分复杂光线表情下卡顿的情况。
为了解决功耗续航的问题,在这套算法上高通引入了骁龙 SNPE 工具(骁龙神经处理引擎,是一个针对骁龙加速深层神经网络的运行时软件)优化,并启用 AI 引擎。
如此,原本的 AI 算法能够达到 60fps 运行,并可以持续运行三个小时,几乎完美解决了精度与速度,让「鱼与熊掌兼得」。
而让人较为震惊的是,在节目录制时,这个方案还只是基于上一代的骁龙 8+ 芯片,AI 引擎也是上一代。
还有一点,提前曝光的录制花絮当中,参与录制的明星面部并没有传统的密集的数据采样点,只佩戴了一个仅固定设备用的头盔与 Android 手机终端。
不需要特殊标记点,也不需要多个摄像机的多角度摄录,一台基于骁龙芯片的 Android 手机就能完成对面部 300 个特征点的采集,并利用终端的 AI 引擎对繁复的 AI 算法进行实时呈现。
对于面部捕捉来说,最终通过算法、AI 引擎、NPU 硬件加速实现了精度与速度的兼得。另一方面,对于《元音大冒险》来说,骁龙的技术实力,让这档节目也从构想到了实际行动上。
可以看到,《元音大冒险》已经证明,在未来我们可以通过骁龙 8 系移动平台的手机,来完成面部捕捉,像明星一样,在元宇宙世界里映射本我,展现自我。就像小鬼王琳凯那样,形象是古灵精怪的小丑,表情则依旧是自己的喜怒哀乐。
过去,我们可以清晰地感知手机 SoC 进步带来的各种进步:单核 CPU 到多核 CPU,让手机不再卡顿了;GPU 进步,能玩的游戏,从《愤怒的小鸟》到了桌面级别的《原神》,以及手游帧率,从 30fps 走向了 120fps 级别;网络也是类似,得益于 Modem 的进步,网速也从 kb 到 mb 再到现在的 gb 级别。
更关键的是,如前面说说,技术不仅要往前,也要往下,如果现在手机操作系统的界面,依旧需要输入指令符,而不是现在的图形触控界面,那骁龙芯片算力再强,也难以每年数亿级别出货。
在骁龙和相芯科技合作,完成元宇宙主题综艺节目的超低门槛面部捕捉技术时,遇到的命题不光是克服技术难题,还有一个命题是,做出足够简单易用,智能稳健的技术,比较这项技术的使用者,不是技术人员和开发者,而是影视制作团队和演员。
所有司空见惯的苹果落地,背后都有一个复杂的地心引力学说,类似于骁龙支持面部捕捉这样的进步,背后又是谁在出力呢?
答案是高通 AI 引擎。
相对于处理器的 CPU、GPU 而言,AI 计算引擎的存在感要弱一些,即便每一代 AI 引擎的算力都在成倍的增长,但带来的感知却似乎有点弱?
就拿这次对于面部捕捉又快又好的呈现来说, 普通设备当中的 AI 引擎已然达到了相当的水准。
而在平时,AI 引擎算力的指数增长,你的每一次操作,解锁、开启摄像头、唤醒语音助手等等都无时不刻的不被 AI 引擎所包围。
高通 AI 引擎在《元音大冒险》节目里,也不仅是在面部捕捉以及虚拟形象建立等方面发光发热。元宇宙想要足够的沉浸感,首先需要跟现实世界一样有着视觉、听觉等相应的感知。
精准的面部捕捉、动作捕捉,可以归类到视觉当中,而听觉,则借由 Snapdragon Sound 骁龙畅听技术带来低延时、高音质的体验。
这些技术的背后都有高通 AI 引擎参与,AI 引擎的助力无形之中也成为开启元宇宙背后的那把钥匙。
如果对比一下国内外一些所谓元宇宙平台里面的虚拟形象,比如 Meta 的 Horizon,就会发现,《元音大冒险》里所呈现形象,才能对普通人产生吸引力。这里面的形象落差,完全就是 2G 网络和 4G 网络的区别。
微信扫码关注该文公众号作者