从高精度采集到“3D生成”,AIGC怎样造福影视游戏业 | 专访影眸科技
作者|James
如果你曾关注过近期的AIGC相关新闻,可能会注意到一家名叫“影眸科技”的初创公司,频繁出现在各种相关展会的新闻里。跟他们一起亮相的,往往还有一个高大的“球”,可以容纳一个人坐在里面,然后等一段时间,就可以生成他头部的逼真3D扫描文件,甚至可以3D打印一个自己的脑袋。
这就是影眸科技的主营业务之一——高精度人物面部采集和3D资产生成。由于其生成精度高、速度快、效率优的特点,他们与影视剧、游戏等文娱行业客户正在开展范围广泛的合作。
而他们正在研发的另一个方向,则是“3D生成”——用一两句提示词或者是图像就可以生成符合要求的数字角色三维资产,为娱乐产品开发、个人使用以及今后向元宇宙的进化打造坚实的基础。
影眸科技由上海科技大学的视觉与数据智能中心孵化,主要研发基于AIGC的三维内容和数字形象构建、生成技术。不久前,公司CEO吴迪向娱乐资本论·视智未来介绍了公司的技术和商业化进展。
从30天到3天:高精度采集助力下,迅速生成3D资产
走进公司位于上海张江的办公室,首先能看到的就是影眸科技研发的“穹顶光场”,这是一座引人注目的黑色球形框架,直径3米左右,占满了一整个房间。框架就像一根根火柴棍搭在一起一样,组合成为一个中空的球体,而这些框架放满了可编程控制的光源和相机。
“穹顶光场”是世界唯二、亚洲唯一的的微米级面部扫描系统。吴迪表示,影眸科技自2016年就开始研发采集系统、面部驱动绑定等数字形象相关的技术,先后研发出了六代设备。其中“穹顶光场”是最新一代。
当你踏入这个球体并坐下时,各个角度的摄像机开始拍摄,可在极短时间内扫描出人脸上的所有细节,包括颜色、材质、反射特性等数据。再结合影眸自研的自动化数据处理系统,生成影视级数字形象资产的速度缩短到了3天。
吴迪介绍说,如果有的3D数字人看起来有点“假”的话,其中一个最大的影响因素就是光照不够真实。“穹顶光场”并非一般的多视角扫描,而是进行多光照信息的采集,获取面部纹理细节,以输出适用于PBR(Physically-Based Rendering)渲染的各种贴图,让3D数字人在不同的光照环境渲染下呈现逼真的效果。
此外,“穹顶光场”还可以进行4D扫描,即在三维空间的基础上,扫描面部表情随时间变化的信息。这些信息又可以作为训练高精度面部表情驱动模型的基础。
影眸多次参加全球最顶尖计算机图形学会议ACM SIGGRAPH。在去年的会议上,影眸科技发表论文描述了他们自主研发的面部表情驱动技术。该技术通过训练深度神经网络模型,实现只通过视频图像,就可以精确驱动数字人脸模型进行复杂表情变形,也就是效果明显更优的3D“换脸”。
目前,全球只有极少数团队能实现这样的技术,而优质的原始数据是技术得以实现的基础。“这是全球独一无二的,因为它对系统和算法的配合要求极高,如果没有长达5到6年的研发时间以及上科大给予的大力支持,是很难完成的。”吴迪说。
从光场扫描,到AI生成
基于“穹顶光场”的高数据精度,能做的事情显然也不仅是面部扫描那么简单,而是可以踏入数字形象与生成式AI相结合的未知领域。
“实际上,我们采集大量数据后,我们可以通过更简单的方法获得三维资产,那就是生成。例如,我可以描述我需要一个慈祥的老奶奶,我们的系统可以根据描述生成相应的3D模型。”吴迪对娱乐资本论·视智未来表示。
今年8月,影眸科技成为50年来首次入选SIGGRAPH Real Time Live 的中国大陆团队。数字人生成技术ChatAvatar也在会上首次亮相。
ChatAvatar已经在影眸科技的网站上开放体验。用户输入提示词后,会发给一个简单的聊天机器人,可以用引导式提问帮助用户更好地描述需要的模型,无需进行大量的填表、选项、拖动等参数设置。
该技术可以仅通过“生成一个慈祥的老奶奶”这样简单的描述,就可以生成出符合描述的三维老人模型,可供Unity、Blender等软件直接导入。
“它实际上生成的是一个标准的商业资产,就像我们扫描出来的一样,它带有PBR的材质,可以选择拓扑结构,可以添加贴图,以及表情绑定,可以直接接入游戏和影视的常用制作软件中。”
吴迪认为,用生成式AI来做数字人,优势明显:
描述方式非常自由,用户既可以用各种形容词进行主观描述,也可以使用照片、原画“图生3D”,不受限制;
可生成速度极快,单次生成资产只需不到30秒,且可以批量生成。这种生成方式非常适合需要大量不同数字人的应用场景,如电影、动画中的群像演员、游戏的个性化NPC等。
不同于文生图的一次生成不可修改,3D在生成后可以非常简单地导入任何专业软件进行拉伸、缩放等调整。
在未来,甚至只要对文生3D的结果进一步调整和描绘,就可以再次定制成品模型。以此为基础,用户可以追加提示词让“年龄增加10岁”或者“让眉毛粗一点”。
这种技术已经具备了初步商业应用的条件,不仅在影视、游戏制作中节省了时间和成本,还提高了艺术家的创作效率,使创意更加高效地呈现和预览。未来,ChatAvatar将从生成人头和身体扩展到生成毛发甚至是服装,以供用户生成完整的3D人物形象。
电影是技术验证的最高方式
在年初电影《流浪地球2》上映时,曾披露其中一些人物的“增龄”和“减龄”用到或测试了国内公司的部分技术。无独有偶,面对娱乐资本论·视智未来,吴迪也表示,影眸科技已经在部分国内影片中参与了前期的技术选型。
“我们开始进行面部采集等系统测试的时候,这部电影的拍摄工作已经基本完成,因此只有在一小部分场景中应用了一些简单的测试。由于时间紧迫,以及电影制作中对稳定性的考虑,很可惜我们没有提供到太多的帮助,但我们仍旧期待着国内的更多影视和游戏作品可以使用到我们的技术。”
影眸科技将电影级应用视为验证技术最高质量的方式。如果在电影制作中可以胜任,那么下放到影视、广告、游戏等内容产品就会更够用、更好用。公司在开发出文生3D的测试版后,也及时联系了一些文娱行业企业发去试用,请他们提供改进建议。
对于当前的商业化进展,吴迪表示,影眸科技已与多家影视游戏公司达成合作。这些公司可以通过影眸科技的平台,以低成本高效地生产所需的虚拟人物。用户只需要简单描述,或者上传人物设计的2D概念图,就可以完成数字角色的制作,以生成人物计算,至少可以比传统制作流程节省大约50%的时间成本。
“我们主要现在接入的领域比较多的还是游戏和影视,因为他们非常清楚会用到这样的技术。实际上,游戏业一年在3D资产上花费有百亿美元,他们是我们潜在服务的第一批用户。我们通过‘穹顶光场’去采集大量的数据之后,再通过深度学习生成逼近于同等精度的3D资产,对很多场景来说完全够用。”
目前,影眸科技已经与多家国内头部游戏公司进行了产品测试合作。这些公司反馈,该技术可以大幅提升数字角色的制作效率,为游戏创作提供更多可能性。与此同时,人脸生成服务也以付费模式面向个人用户开放内测,生成过程本身免费,但如果要下载后自用,或者获得商业使用授权,则分别需要支付一些费用。
影眸科技与上海科技大学关系密切。吴迪是上科大的早期校友,他的本科和研究生时光都在学校度过。他介绍说,影眸科技源自上海科技大学信息学院视觉与数据智能中心的孵化,可视为该实验室的成果转化。影眸科技承继了上海科技大学在人工智能领域的技术积淀。
影眸科技已完成千万级Pre-A轮融资,投资方包括奇绩创坛,以及红杉中国等头部机构。
吴迪预测,在元宇宙、VR/AR时代到来后,影眸科技的技术将大幅提升普通用户的三维内容生产能力。届时,公司的商业模式将有更多地方是直接面向终端消费者的,而商业前景也将更为广阔。
“其实最终我们想要达到的是一个AIGC用于三维生成的概念,就是通过AI模型直接生成三维角色、物体乃至场景的标准资产用于今后VR和元宇宙等的应用。显示介质进化后,所有目前人类储存的二维资产都有需要提升到三维,但当前生产力跟不上,要求每个人都拥有工作室级别的三维创作能力是极其困难的。因此,在这种情况下,AI的生产能力变得极为重要。我们需要让任何人都可以生成三维的创作内容,以便更好地迎接下一个时代。”
微信扫码关注该文公众号作者