AIGC时代的「数字生命计划」已启动！

公众号新闻

2024-01-19 03:01

机器之心专栏

机器之心编辑部

从碳基生命到硅基生命的剧变正在悄然降临。

即使总是伴随着关于伦理、人性与法律等问题的争论，人类从来没有放弃过挣脱时空限制、实现灵魂永恒的尝试。近几年《上载新生》《万神殿》《爱死机》《西部世界》这些剧作，无不在重温着二十多年前《黑客帝国》和《楚门世界》的内核。

而《流浪地球 2》的上映，更将「数字生命」的讨论推向了高潮。影片中研究员图恒宇在女儿丫丫濒死时用数字生命卡保留了她生命的数据，在超级计算机 550 w 的多次迭代后，数据形态的图丫丫拥有了自我意识，获得了「完整的一生」。

《流浪地球 2》剧照，图恒宇和丫丫

简而言之，影片中的数字生命计划就是将人类的意识上传到智能终端，以数据的形式永久存储，使人类的思想意识得以脱离躯体而独立存在。死亡被重新定义，人类在数字化模拟世界里获得永生。然而完美的脑机接口，成熟的全脑仿真技术离我们还有多远？

近期新加坡南洋理工，商汤科技，上海 AI 实验室共同推出的一项同名项目「Digital Life Project」，让曾经遥远不及的科幻情节照进了现实。

论文标题：Digital Life Project: Autonomous 3D Characters with Social Intelligence
论文链接：https://arxiv.org/abs/2312.04547
项目主页：https://digital-life-project.com/

文中提出了数字生命计划（Digital Life Project)：通过 AI 技术和动作合成技术，智能衍生剧情，创造出能够在数字环境中模拟交互的自主 3D 虚拟角色。这些角色不仅能进行对话，还拥有自己的人格，能够感知所处的不同社交环境，做出相对应的身体动作来表达情感和反应。同时，超越 2D 虚拟沙盘的 3D 场景建设和能够交互的动作设计更给人们带来了沉浸式的体验。

由本篇论文中的成果生成的虚拟 3D 动画（对话、动作均为生成）

数字生命计划的核心由两部分组成：

1）SocioMind：一个模拟人类思想和判断的数字大脑。它能够利用近期发展非常迅猛的大语言模型（例如 ChatGPT），结合基于心理学原理的反思过程，并通过发起对话主题来模拟具有自主性的角色。

2）MoMat-MoGen：一套用于控制角色 3D 身体动作的「数字身体」。它结合了动作匹配和动作生成技术，在数字大脑的驱动下，匹配并生成高精度且丰富的动作，让角色能根据场景做出合理的反应。

SocioMind（数字大脑）

人格建立 + 记忆和心理学反思 + 自主生成

SocioMind 数字大脑的架构总览

Autonomous Character 最大的特点是具备自主意愿。研究人员提出 SocioMind 数字硅基大脑的概念，利用通用的大五人格理论和大语言模型，来为角色注入人格和目标。SocioMind 能够使角色自主地发起和参与对话，规划接下来的故事发展。这些故事发展不仅符合原始背景，3D 虚拟角色性格，还针对历史事件进行「反思」。

尽管大语言模型可以模拟单一时间点上的可信人类反应，但要想确保长期一致性，由计算驱动的虚拟人的行为需要与其过往经验一致。数字生命计划生成的角色会检索事件历史（模拟记忆流）进行推理，同时还结合了社会心理学理论，进行更高层次的思想层面的反思，并归纳出更高层次的推论。

数字生命计划打造的 3D 角色，可以自主推进故事情节

基于角色的「人格」设定的推论与交互历史共同限制下，创建的 3D 虚拟角色能够自主发起对话，做出合理的动作，推动剧情的发展。

举个例子，研究者为展示中的两位 3D 虚拟角色设定了初始背景：

男生和女生初次面对面交谈，坐在餐桌旁。

角色自动生成了合理的对话和动作：

男生说「我们终于见面了」，并伸出胳膊；女生坐直身子，并回复「很高兴见到你」。

随着剧情发展，他们交流对音乐的热爱，自己的兴趣爱好，一起窝沙发看电影，最终成为了最好的朋友。这整个过程都是自发动态衍生的，不拘泥于实现设置的固定脚本。

MoMat-MoGen（数字身体）

动作匹配 + 动作生成

MoMat-MoGen 数字身体的架构总览

意识驱动行为，系统还需要一个用于控制角色身体动作的模块。目前学界单人动作生成已经获得了长足的发展，但是双人交互还没有成熟方案，这涉及到双人空间对齐、肢体接触、时序同步等难点。因此，研究者提出 MoMat-MoGen，它结合了两种技术：动作匹配 (Motion Matching) 和动作生成 (Motion Generation)。

由数字大脑驱动，根据角色的当前姿态和目标轨迹，MoMat 利用现有的主流技术从动作数据库中检索高质量的运动片段。最合适的动作被用来匹配角色的反应以确保角色动作的自然性和准确性。

在 MoMat 的基础上，MoGen 能够用来创建新的动作，来满足复杂剧情和 3D 虚拟角色的需要。它能够根据文本输入（如指令或描述）生成多样化的动作，同时又保持角色之间的互动关系。

相同背景故事，不同关系设定下，虚拟角色进行交互

有了数字身体这套系统，虚拟 3D 人物就能够在设定的区域内自由活动，角色与角色之间能够进行带有接触的互动，也能够感知到环境，坐在沙发上。

值得注意的是，即使给定相同的背景设定，人为定义角色间不同的关系，会导致不同的社会行为。例如图中范例，对比「朋友」关系，「情侣」有更多的肢体接触。

真人能够与虚拟角色进行交互

现有技术还能够结合 VR 技术，模拟真人交互。实际动作被捕捉，当作角色动作输入，数字生命技术生成的 3D 虚拟角色，能够相对应做出反应。

应用场景

这两个系统的结合，就能创造出能够进行复杂社交互动的 3D 虚拟角色，应用前景非常广泛。

1. 新媒体内容创作：人人都能成为「大导演」。根据用户写的人物描述和简单剧本，系统能够自动调用虚拟人，在 3D 场景中创作出符合逻辑长短剧。

2. 3D 虚拟陪伴：忙碌重复的工作，乏善可陈的生活，无尽的孤独落寞，愈加匮乏的情感，使得作为人类情感慰藉与陪伴更加可贵。结合 VR 技术，人们还可以创建自己的的「化身」，真实体验与 AI 角色对话，交互，获得情绪情感上的满足。

《流浪地球 2》剧照，图恒宇透过电脑屏幕，和有自我意识的丫丫对话

3. 大规模虚拟社区：人类玩家可以生成独一无二的游戏中的虚拟形象；玩家与 NPC 的交互不再仅仅是预设的动作和对话，NPC 能够像人类一样生活、工作、社交，去复刻人类社会的方方面面。

《西部世界》中构建的虚拟西部小镇，玩家可以和 npc 交互

目前技术在拟形、拟态、拟声等智能图像、视频、音频的生成技术实现上已经非常成功，大型语言模诸如 ChatGPT 也具备了完成包括聊天、写作、答题等常见文字性任务的能力。

该论文探索了数字大脑的可能，使得智能体变得具有灵性，而 3D 场景和有自我意识虚拟人的模拟，使得交互更加沉浸和真实。

随着来计算机硬件算力的大幅进步，以及科技的进一步发展，或许正如上世纪八十年代弗诺・文奇（Vernor Vinge）等科幻作家预测的那样，从碳基生命到硅基生命的超人剧变正在悄然降临。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章