从数字人到数字生命：未来人机交互的革命

2022-12-23 15:12

数字人何时会有自己的灵魂？

为什么数字人

突然这么火？

Derrick Zhang：想请宋总介绍一下数字栩生到底是怎样的一家公司，以及您自己的创业经历。

宋震：数字栩生成立于 2021 年 5 月，是一家为数字人提供底层技术的硬核科技公司。在公司成立之前，团队已经在超写实数字人的数据采集及 AI 驱动方面有了近 5 年的探索，形成了完整自主知识产权的数字人解决方案技术体系，沉淀了丰富的技术实力。当前公司还是以 B 端企业的 PGC 数字人专业定制业务为主，预计在两年内，公司将全面转向 AIGC。未来，数字栩生也将致力于以 AI 技术赋能数字人的各个环节，为数字人注入情感，创造有温度的数字世界，让生活更美好。

刚才视频里的「李星澜」是我们给字节做的第一个超写实数字人，像这样的数字人，公司成立至今，大概已经服务了 30 多家公司，已经发布和正在制作的专属数字人 IP 接近 50 个。去年我们还和中戏、新华社、B 站等单位一起做了「数字梅兰芳」项目，「数字梅兰芳」也是用数字人技术对中国传统文化名人复现的一次探索，复现「梅兰芳」的过程有很多的突破，比如已故名人的模型、材质、毛发等各种表现，以及它的服装、服饰的复现，这是对「数字人+传统文化」一次很好的探索。

人类文明自有记载以来，就一直把最高超的技术用在「造人」上。「造人」这件事随着我们从青铜时代到铁器时代，从农业时代、工业时代再到信息时代。现在因为有了 AI 技术的出现，离我们想象的数字人到数字生命的人机交互革命也许会更近一步。这也是我之所以选择「数字人」这个赛道创业的原因，我认为这是一个可以做一辈子的事情。

Derrick Zhang：我有一个很深的感受，最近媒体上出现了很多数字人的社交账号，我很担心自己的工作会被他们抢掉。为什么一夜之间就出现了这么多的数字人？

宋震：其实数字人不是一夜之间出现的，数字人的起源可以追溯到 80 年代，像 2000 年初的时候，像「初音未来」这样的二次元数字人就火了一下。之所以去年集中爆发了这么多的数字人，我觉得有以下 3 个方面的原因。

第一个原因，随着人工智能、实时渲染等技术越来越成熟，数字人的制作成本随之降低，有越来越多的人进入到数字人制作的行业中来，所以我们看到了很多的数字人。

第二个原因，去年元宇宙概念的大火。大家都知道，数字人是元宇宙里面的原住民，所以元宇宙概念的大火也带动了数字人行业的起飞。

第三个原因，数字人有很多先天的特性。从人的属性上来看，数字人有很多优点，一是数字人偶像永不塌房；二是数字人本身的数字化的属性，也有很多的优势，比如可以 24 小时不间断工作，可以快速复制别人的知识到自己的身上···这些可能都是导致去年数字人大火的原因。

做数字人难在哪里？

Derrick Zhang：因为我自己是游戏玩家，特别喜欢玩各种各样的游戏，在游戏里也有很多的角色。我们也知道塑造一个看起来很真实的游戏角色是非常难的，尤其是人的表情太复杂了，可能稍微有一点偏差就出现各种各样的意外。我挺想问宋震老师，做一个数字人难吗，它到底有多难？

宋震：难，做数字人很难，要做超写实数字人更难。我想分别从认知和心理学的角度来分析为什么做数字人这么难。

第一，恐怖谷效应，在像人和不像人之间，有一道巨大的鸿沟，这个鸿沟就是恐怖谷。做一个卡通人，如果它的表情没有这么细腻的时候，我们可以脑补出来，但是到了一定的程度，我们反而觉得那个数字人非常恐怖，不像人了。跨越恐怖谷是我们做超写实数字人必须要过的一个难关。

第二，梅拉宾法则，这是一个心理学的法则，人和人在交流的过程中，只有 7% 左右的信息是语言信息，说话的语速、语音、声调传达了剩下的 38%，另外 55% 是形象。人进化的过程中，语言是最后出现的。在没有语言之前，不代表人不能交流，人的交流可能更多依赖的是肢体的语言，语音语调以及面部的表情，这些都是非常丰富且细腻的信息传达。所以要做好一个数字人，也需要在表情和肢体动作上能够达到传递最大信息的功能才可以。现在很多简单的单模态 AI 驱动的数字人，更多关注的是怎么说话，反而忽略了语音语调、肢体动作以及面部表情。

Derrick Zhang：数字栩生有一个非常王牌的技术，就是光场扫描，这项技术是数字栩生的核心竞争力，这项技术未来有怎样的前景，有怎样的应用呢？

宋震：刚才聊到做「人」的难度，表情就是其中的重中之重。光场扫描技术解决的是怎么快速准确地把人的表情完美再现出来的问题。它是把传统的艺术家雕刻人脸，升级成现在用数字雕刻人脸的方式，最终都是要把每一个数字人的表情完整雕刻出来，才能得到一个面部栩栩如生的超逼真的数字人。

人的表情非常复杂。人脸上一共有 44 块肌肉，经过训练的人，大概能做出来 5000 多种表情，一般的人也能做出来 2000 多种表情，所以表情是非常复杂的事情，有了光场扫描技术，我们可以很真实地再现每一个被采集人的表情。目前数字栩生的光场采集系统已迭代到第六代。不但包含了几何的特征，也包含了皮肤高光、漫反射、粗糙度等纹理的细节。

数字人何时

能拥有灵魂？

Derrick Zhang：古人有一句话「画虎画皮难画骨，画人画面难画心」，我们现在已经让它变得很像了，但是一个人最重要的还是灵魂，数字人是不是还要注入灵魂？

宋震：这两年 AI 的进步让我们敢于想这事了。数字人从 80 年代就有了，但是更多是靠人手工逐帧做出来的，虽然我们能做出来很逼真的数字人，但是却一直缺乏跟数字人的实时交互。但好在如今，在 AI 的技术的支持下，我们已经能够逐渐做到这些事情了。

实际上，数字栩生做的数字人不只是「超写实」，更重要的是「可交互」，核心就是「数字小脑」。「数字小脑」就是跨模态的 AI 表达系统，现在做「数字大脑」的比较多，比如 NLP、大模型等，它负责的是思维、理解的部分。如果想让一个数字人活灵活现，还需要这个数字人能够有个性的、有情感的表达自己。「数字小脑」主要就是负责这一部分的工作，在 AI 的支持下，负责把文本信息和语音信息转成人的口型、表情、动作。这里还有一个难点在于千人千面，所以我们在采集的时候，每一个人也都不一样。

Derrick Zhang：感觉已经解决了两个很重要的问题，一是画得很像，二是再注入一点小的灵魂。最近的一些游戏，在游戏或者是影视作品中，会发现他们的数字人好像已经做得更多，我以后是不是可以找一个数字人女朋友呢？她会不会和我产生情感的连接，并且度过余生？

宋震：人好像从古至今都有「造人」的情结，赋予数字人灵魂这件事情，目前只有 AI 可以实现。未来，如果在 AI 的加持下，数字人具备了自学习能力以及个性化的情感表达的话，那是很值得期待的事情。比如说，我的数字人在和我交流的过程中，一直不断的在学习和模仿我自己，然后它越学越像，那么在我死了以后，我的这个数字人，它是可以在数字世界里永生的。虽然我们不在了，但是能够留下数字生命，这也就实现了从数字人到数字生命的转变。

当然，这同样会带来很多伦理道德问题。比如，在现实生活中，我同时和 3 个人谈恋爱，这是违反道德的事，但是如果数字人成为了我们的数字伴侣，那我同时和 5 个数字人谈恋爱，这违反道德吗？数字人知道了会不会吃醋？这也是有待探讨的问题。

Derrick Zhang：在宋老师看来，我们大概需要多长时间能够达到这样的地步？我今年已经 29 岁了，您觉得在我的有生之年能发展到什么样的程度？

宋震：数字栩生把数字人的进化分成了 6 个阶段，其中 L0 及 L1 级分别由演员驱动预先录制动画及中之人驱动，这 2 级是目前 95% 数字人公司的业态。L0 级是最早成熟的，大概从八九十年代就大量出现在影视作品里，一直到现在，我们看到的很多数字人还是用 L0 级的方式在制作和表达。L1 级可以中之人驱动，它和 L0 级最大的不一样是可交互，但它并不是 AI 交互，它只是一张数字皮囊，有一个真正的人在背后驱动它来和人进行交互。这两级，和 AI 是没有任何关系的，但到了 L2 级的数字人，就和 AI 产生了联系。

L2 级是现在大部分我们所看到的 AI+数字人的形态，基于简单的规则去触发。目前 L2 级存在的问题是，它很难做到有个性的情感反应，因为它是单模态交互，传达不了更多的感情，也缺少了必要的肢体动作和表情。目前，我们的技术能够支撑从 L0 到 L2 这 3 个阶段，这是数字人的过去，也是现在大概 98% 的数字人公司的业态。

但是，我们认为未来 3—5 年，乐观一点说，可以实现 L3 到 L5 级的进化。从 L0 到 L2 级这前 3 级我们进化了 30 年，从有计算机图形学以来，一直到现在有了人工智能，数字人和人工智能结合走了 30 年。从 L3 到 L5，我们认为需要 3—5 年，当然这是乐观的说法，如果保守点说则需要 5—10 年，主要现在 AI 技术发展得太快了。

L3 级实现的是有个性的情感反应，也就是能够做到千人千面。L3 级的数字人具备了自学习能力，它能够在和我们的沟通过程中学习我们，数字人会越来越像人，数字栩生的「数字小脑」技术也是定位在 L3 级。

L4 级，我觉得可能是未来元宇宙和 VR、AR 世界里数字人的主要形态和主要能力。L4 级就具备了环境感知能力，它有自驱动的行为产生。在三维世界里，我们觉得很正常的一件事，其实对 AI 来讲是很大的挑战。比如说未来我在 VR、AR 里和数字人交互，我和它说「请你给我倒杯水」，这个数字人就需要具备很强的 AI 能力才能完成这个指令，它需要知道杯子在哪里，水在哪里，以及怎么拿着杯子去接水等等。L4 级很像现在的自动驾驶系统的感知方式，需要有上下文的理解能力，需要有环境感知能力。

L5 级其实是我们想象的数字人的终极状态。L5 级的数字人具备了自我的意识，可能这个数字人还会思考我是谁，我从哪来，将要到哪去。在这之前，所有的数字人都只是一个偶像或者一段叙事方式，而且我们认为机器和人是对立的，但是在未来，这就没有对立关系了。所以，我认为，到了 L4 级和 L5 级这两级以后，数字人已经是具备情感交流的独立个体，我们也将其当成真正的「人」，而不仅仅只是机器，这势必是一场人机交互的深刻革命。

*头图来源：极客公园

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你如何看待数字人？