张昊阳：Generative Agents和AI游戏的未来

2023-09-11 15:09

「点击上方"GameLook"↑↑↑，订阅微信」

北京时间8月17日凌晨，OpenAI正式宣布收购游戏公司Global Illumination，这也是自2015年成立之始，OpenAI的首次收购动作。其实，生成式AI的发展一直与电子游戏相伴相随。2023年4月，美国斯坦福大学和谷歌研究团队联合发布论文《生成式智能体：人类行为的交互性仿真》(Generative Agents: Interactive Simulacra of Human Behavior)，迅速得到全网关注。这项研究基于GPT-3.5，构建了25个由Generative Agent扮演的游戏NPC，每个NPC具备不同的思想、个性、记忆、计划、社交关系等人类属性，认真地在Smallville小镇中共同生活。

作为游戏领域的连续创业者，95后张昊阳属于最早投身于AI游戏的一批人，他本身也是中国第一批虚幻4引擎开发者，已经有长达8年的虚幻引擎游戏开发经验，主导过国民手游《和平精英》的部分AIGC预研业务，他和小伙伴们一直走在技术发展的前沿。早在2017年，张昊阳制作的AI虚拟伴侣就获得了某知名上市公司的投资。

《伊甸岛》制作人、AutoGame创始人张昊阳

2023年，张昊阳率先提出游戏领域的“全要素生成”理念，在行业内迅速引发关注，在腾讯时，他率领团队制作的中国版斯坦福AI小镇《伊甸岛》是最早探索Generative Agents与游戏结合的游戏产品之一。

《伊甸岛》游戏PV & 实机演示

那么，究竟什么是全要素生成？

科幻作品《西部世界》中描绘了这样一个场景：一群具备智能的机器人共同组成了一个小社会，但它们并不知道自己的真实身份是人造生命，都以为自己就是人类，在逐步揭开真相的过程中，发生了一系列有趣的故事。

而全要素生成，就是指在未来的游戏中，游戏策划和开发者，仅仅提供一个原始驱动力（Kickstart）就够了——游戏的所有元素，包括模型、文案、语音、行为、动作乃至场景等，都可以由AI来生成演绎。

在8月份看到OpenAI投资游戏公司的消息之后，通过和团队的共同讨论，张昊阳提出了猜想——大模型的底层能力，会真正改造整个游戏产业。而如果想实现具身智能，对软件公司来说，最有优势的其实是从游戏场景做起。

机会在哪？借助生成式AI的能力，未来的游戏可以由AI主导设计，自动进行游戏生成，这意味着不仅仅是体验层面的优化，还包括更多不同模态的UGC内容生成，比如说，用户可以自己搭地图，改元素，修改交互情景等。

对于这种场景的范式转换，作为具备游戏+AI双重背景的团队，张昊阳和小伙伴们也很激动能参与到这样的机会中去，在和平精英和伊甸岛项目积累了不少实战经验之后，他选择正式开始创业，躬身入局参与Agent的训练和迭代过程，通过自己在游戏产业多年的积累、国际化的视野和实践，让AI Agent能更好地去服务整个人类的生产生活，这也是他和团队对未来的愿景——游戏不单单停留在游戏本身，还能有更大的想象空间，最重要的就是，通过自己的努力，创造人类和数字生命的交互体验。

显然，张昊阳和团队成员们的探索之路已经开启。

游戏与现实的映照

记者：前几天OpenAI投资了一家叫做Global Illumination的游戏公司，站在资深游戏创业者和策划的角度，你怎么看这件事？

张昊阳：OpenAI投资的团队——Global Illumination，之前的产品主要以沙盒游戏为主，和MineCraft有些类似。其实OpenAI本身就有非常深厚的游戏基因，他们刚开始在通用人工智能这条路上的探索，首先就是从游戏AI出发，做了OpenAI Five，在DOTA2中进行5v5对抗，通过一系列尝试，才发展到现在。

我们的判断是，对未来世界和整个人工智能产业来说，游戏其实已经不再是游戏本身，本质其实是现实世界的数字孪生和模拟，可以反哺到现实世界当中。

再举个例子，如今用游戏引擎训练机器人已经不是什么新鲜事，具体来说就是利用游戏引擎的能力来制造AI训练用到的合成数据，加快机器人的训练速度。合成数据与现实数据相比，成本更低廉，能够更好地满足训练AI所需要的数据量，让AI适应更多场景。

记者：当初是什么契机让你们想做Generative Agents? 伊甸岛是一款什么样的游戏？

张昊阳：我创建了一支名为“伊甸计划”的团队，也是《伊甸岛》游戏的制作团队，斯坦福的论文《Generative Agents: Interactive Simulacra of Human Behavior》发布后，团队很兴奋，马上就开始思考Generative Agents在游戏领域的应用，这种模式探索了语言模型能否具备强互动体验的社交属性。这里其实可以把大语言模型想象成数字生命体，它具备常识，可以模拟真人决策。

但是我们真正想在游戏场景中实现的，是让Generative Agents真正融入游戏本身中去，为游戏玩法服务，最重要的是要给玩家带来全新的体验；并且，我们所理解的未来游戏实现方式，就是要足够AI Native（AI原生）。

记者：这里的Generative Agents融入游戏中，所带来的体验，听起来很有想象力，具体是什么样的？你们在这方面有什么样的探索？

张昊阳：伊甸岛的游戏策划主要是我和Josh负责，可以先让Josh谈谈他的想法。

Josh（伊甸岛主策）：当初设计伊甸岛的时候，我们开始考虑的是——生成式AI作为一种工具，到底通过何种方式才能给游戏赋能？于是我们就开始研究，具备什么样特性的游戏，能让AI能力介入之后，会比AI能力没有介入的时候更好玩，核心还是要通过生成式AI这项新技术，让游戏本身变得更有意思。

张昊阳：对的，所以这里我们主要创造了一个情境，给游戏中的AI设定具体任务，例如让AI生存、互相合作或竞争。在设计过程中，去研究并且优化GPT如何操控NPC，设计行为规划，包括规避Generative Agents的成本、长时记忆和一致性问题。这里的成本问题就是不断优化提示工程，主要目标是在相对小体量的tokens数下，完成更多样的复杂体验。

为了确保AI行为和游戏剧情的连贯性，Generative Agents游戏还要解决长时记忆问题和一致性问题，这里主要是研究如何在给定的游戏情境，根据游戏的已有要素与当前环境状态，以及NPC自己的数值状态进行决策，从而规避AI过于发散。

重新定义游戏体验：AI剧本杀

记者：对一款游戏来说，以及站在玩家的角度，你们认为什么最重要？这块你们有没有什么创新？

张昊阳：最重要的核心之一还是游戏体验。对于伊甸岛这个游戏，我们就是要创造全新的体验，这里姑且把这种体验定义为“AI剧本杀”。这里的剧本杀，不是说让大语言模型自己去写故事，而是主动设定情境，将NPC与玩家、NPC与NPC交互过程中产生的事件与状态，总结成剧本。这个剧本就是我们在游戏里要呈现的故事，在《伊甸岛》游戏中我们把它叫作“荒岛日志”。

不同玩家在游戏中的不同选择，和AI产生的随机行为，会让游戏产生千变万化的故事走向，这也是我们所认为生成式AI融入游戏后的魅力所在。

记者：AI剧本杀这个概念听起来很有意思，能不能再详细解释一下？

张昊阳：我们给伊甸岛预设出来一个情境，游戏里有个创作者玩家，也就是最开始玩这个游戏的“上帝”，他可以去跟游戏中的NPC交互、改变世界元素等等，通过游戏行为扮演剧本的创作者，让玩家自己扮演编剧。其他玩家，则可以复玩创作者所创造的“剧本”，可以“夺舍”游戏里的某个NPC，以某个身份参与到游戏当中。

《伊甸岛》的地图设计取材于挪威的一处现实地貌

游戏与提示工程实践

记者：如果是将Generative Agent与游戏结合，就需要和生成式人工智能进行交互，要把提示词输入AI系统。因此，今年生成式AI领域，提示工程也比较火，但我理解提示工程这个领域比较新，那么你们游戏领域的提示工程实践是怎样的？和传统游戏的工程实践有什么区别？

张昊阳：我们伊甸计划提示工程的负责人是Leno，这里可以让Leno来回答。

Leno（提示工程师）：和传统后端相比，提示工程更像是写作文，不好量化。因为传统后端想要实现某个功能，很明确就知道需要什么样的代码，比如常见的排序、搜索等等，都属于非常明确的功能需求。

但提示工程不一样，目前的人工智能都是黑盒，由于模型呈现网络结构，输出结果存在随机情况，因为大模型会产生幻觉（Hallucination），会输出无关信息。比如说，我们期待输出以逗号分隔的内容，但是大模型的输出会有用其他符号分隔的情况。这样一来，我们就得用提示词（Prompt），把具体的需求、内容格式和限制都告诉AI，单独要给大模型强调具体约束条件。

提示工程是要经过很多试验后，通过不断反馈，才能得到最佳实践。这里的最佳实践包括用怎样的提示词更好、用哪些句式会更加合适，让语言模型更容易理解人类想要完成的任务。

记者：能不能举一个游戏设计的场景？在工程这块具体是怎么做的？为什么这么设计游戏就能更好玩？伊甸岛和斯坦福AI小镇相比？有什么其他不一样？

Leno（提示工程师）：在游戏开始之前，游戏会将环境信息发送给AI，进行初始化。这块包括玩家在游戏中会执行的具体行为动作与决策，还包括识别需要发送到后台的相应行为数据。之后，通过生成式AI，后台会生成动作之后返回。

今年四月，斯坦福AI小镇出来之后，明确了Generative Agents在游戏领域的方向。

我们团队之前的积累，和这个方向有很大相关性，所以我们很快就开始做试验。但是，斯坦福AI小镇论文呈现的Demo效果，主要集中在表演过程，没有交互实现，论文是用大模型生成的每天的大方向规划，然后基于这个规划执行，玩家无法参与交互。

如果从游戏体验感的角度来说，没有交互实现的场景，可玩性就会比较弱。所以我们就想，能否结合以前用传统模型做AI的方法，加上目前大模型赋予的能力，实现游戏领域更高效、更通用的人工智能。

因此，我们就不断优化我们的提示工程实践。除了结合斯坦福论文中提到的长期规划之外，把实时响应也融入了游戏当中。这里的响应，不单单指NPC之间的对话，还包括随机场景的引入。

比如说，NPC走到环境中，触发了游戏世界的物体。例如游戏内的某个NPC走到了河边，想要过河，但发现过不去。之后NPC看到旁边有一座桥，过去又发现桥是断的，还是过不去。这时伊甸岛里的AI具备实时响应的能力，知道桥断了，无法穿越，就会自动选择换一条路线，这就是实时响应。

玩家作为上帝，有限地影响进程，产生蝴蝶效应

但是，如果完全按照斯坦福AI小镇论文的设计，就不会有这样的实现。因为小镇论文Demo里的AI从开始就知道桥是断的，也知道选择其他路线会更优。于是，NPC根本选择一条不通的路，也不会有实时响应。而伊甸岛设置了荒岛求生主题的游戏场景，把不同角色都加到场景里。因此，在伊甸岛的设计过程中，我们会假定角色对游戏世界的认知为零，因为只有这样，才能真正还原荒岛上“数字生命体”的真实表现。

我们还在游戏里创新了更多可交互内容，包括数值设计。斯坦福AI小镇那篇论文里的Demo里是没有数值的，但是我们给伊甸岛的游戏世界引入了一些变量，比如在暴雪天，NPC们如何在荒岛上度过，在这样的场景下，玩家可以人为输入各种不同的干扰条件，令游戏的可玩性更强。

NPC在环境中记忆事件，迭代执行策略，不断学习，相互协同

总结一下，在斯坦福AI小镇论文里，所有的游戏AI都是按照长期规划，基于长期规划再生成短期规划的行进路线，这些规划会精确到每个小时、每十分钟，所有AI都按规划执行。这样的响应只存在于一种场景——就是与其他AI相遇时，会触发是否要进行对话，交互方式其实不存在。但是，伊甸岛的设计会更突出即时响应与多种交互方式。

关于游戏领域的垂直模型和未来：人类与数字生命的交流体验

记者：你怎么看待大模型在游戏领域应用的未来？

张昊阳：我们相信随着技术格局的变化，大模型的成本与部署难度会持续下降。因此，未来一定会出现成本更低、更轻量的大模型部署方案，甚至未来可能出现模型作为游戏内容的一部分，随着游戏内容一并分发，并在玩家本地的设备中运行。对未来的游戏开发团队来说，可以基于游戏训练各种特定应用场景的小模型，以实现不同能力，就像人的不同脑区拥有不同的功能一样。当然，与之相比更加火热的是训练不同“人格”的AI，现在，像Character.AI，MyShell等团队都在往这个方向尝试。

记者：展望一下大语言模型跟游戏业态的融合？目前还有哪些瓶颈？

Leno（提示工程师）：首先，在生成游戏策略这块，大模型与传统模型的区别在于，大模型数据比传统单模态模型产出的数据更丰富，背景知识更广，所以拟人度更高。

其次，在丰富数据的加持下，使用大模型辅助，能够提升制作游戏的效率。过去，在游戏制作过程中，已经有很多场景应用过人工智能技术，比如AI Bot、AI配音、AI测试等，但还没有全流程自动化应用AI制作游戏的探索。而大模型的优势在于，它对训练数据具备理解能力，只要语料足够，就可以直接在同类型游戏内复用，特别是大模型在写实类游戏的落地。

还有就是数学计算输出错误的问题。问题在哪？因为LLM本质上是文本生成的模型。因此，未来还需要结合大模型与传统模态的模型，这样才能让生成式AI和游戏更好地结合。举个我们游戏策划实践中的例子，如果要做寻路模块，或者要实现具体打斗场景，目前单模态模型会让具体执行更加准确，传统方法会比大模型实现效果更好。如果全部都用大语言模型，有的时候输出会的逻辑性会弱。

当然，大语言模型的优点在于，语调更丰富、更拟人。因此，大模型和传统模态模型的结合，是未来游戏和AI集成应用场景的趋势所在。

关于AI Agent和创业：构建底层工具能力+产品双驱动模式

记者：听说你从腾讯辞职出来创业了，你们目前团队配置是什么样的？你认为什么样的团队是有AI基因的游戏团队？

张昊阳：我现在率领的创业团队，主要还是游戏产业背景比较深厚，设计经验比较足，人工智能领域这块经验也够丰富，同时具备国际视野。比如说，我自己是从腾讯和平精英出来的，我们团队还有暴雪、苹果Siri、Meta AI的工程师、名校毕业的算法和游戏开发者等。但最重要的是，我们是一帮对AI原生游戏有“执念”的人，大家都愿意为共同目标一起努力。

我们认为，游戏团队本质还是做游戏，也就是要有对整个游戏的设计流程有深刻的理解；除此之外，还要充分理解“玩家视角”，明白“什么是真正的好玩”。对于创业团队来说，落地速度也很关键，要在懂AI的基础上，实现游戏的敏捷开发，也就是具备迅速落地的能力。

记者：你怎么看现在游戏赛道做工具和做产品的公司？

张昊阳：我们对AI时代游戏领域的认知是，工具属于底层能力，底层能力对所有创业公司都非常重要，在这一点上，要坚定不移地持续构建底层能力壁垒。但是，但在这个基础上，还要推出面向玩家的、更好玩的To C产品。这也是我们的追求，因为所有的实践最终都要围绕玩家体验服务——始终要探索“什么是真正的好玩，究竟如何能更好玩”。

记者：你们以前在游戏制作过程中，用过AIGC工具吗？

张昊阳：我自己之前在腾讯内部的AI创新比赛中，就设计过训练AI玩游戏的强化学习工具套件，它本身也是个UGC创作工具。我和朋友们很早就开始探索AIGC工具在游戏领域的尝试，也积累了一些经验。当时我们伊甸计划的主美是Frank，除了Generative Agent的部分，所有素材基本全是Midjourney生成的，动画是用AIGC软件Animated Drawings生成的。Frank会用生成式AI去生成一些创意词汇，然后再拿Midjourney来给图片内容和美术风格定调。

《伊甸岛》中使用ControlNet进行地表风格化重绘

当然，游戏的工业化和很多IT领域的工业化一样，都需要周期。我们也看好新技术在和具体产业的结合，但所有结果都来自真正下场实践。业内通常管我们目前创业在做的AI游戏生成赛道叫text2game，主要探索成熟游戏工业管线当中落地的最佳实践，我创办的AutoGame也愿意成为这个领域最早入局的团队。

游戏+人工智能公司的壁垒

记者：站在你的角度，如果是人工智能+游戏领域的创业公司，究竟什么才是真正的壁垒？

张昊阳：我们对于游戏领域壁垒的理解，一方面是数据壁垒。这种数据壁垒的特性在于：游戏行业本身就是高度面向对象的领域，很多游戏数据都是多模态数据。其次，游戏领域的数据通常相对闭塞。因为游戏领域的数据需要持续积累，大家没办法把游戏作为语料，直接喂给GPT，进行模型训练。

我们目前创业的方向，其中也包括持续积累游戏领域的数据。同时，我们也会高度关注整个人工智能发展的行业周期，这里的行业周期，主要指生成式AI的能力。比如说，目前AI有建模能力，生成音效的能力，也可以让Bot做出行为决策和让NPC开口说话。

但是，AI能力的边界还需要行业人士进一步迭代和拓展，研究可动3D模型和动作生成，多模态的内容生成等等。这些底层能力和游戏的发展息息相关，是需要持续去研究并实践的。

记者：如何理解游戏垂直数据的获取难度？如何构建游戏领域的壁垒？你们在这里有哪些具体的计划？

张昊阳：和一些其他领域不同，游戏领域数据相对闭塞，存在于专业人士的脑海中，尚没有成规模地形成文字、图像等可以用于AI训练的数据，在公开网络中也很难获取到。除此之外，游戏领域的数据往往与游戏场景或对象强耦合，且具备跨模态属性，文本数据只占游戏领域内比较小的一部分，其他还包括图像、声音、2d动画、3d模型、3d动画等数据类型，并且这些数据通常与游戏引擎强绑定。

举个相对具体的例子，比如我们要做游戏逻辑生成，就会遇到大量游戏内代码，并且这些代码是高度耦合的，一旦某个代码片段生成出错，就有可能引发系统性崩溃。我们AutoGame团队提出的优化方法是（把大部分游戏会用到的通用模块，抽象成“积木元件（高度模块化的代码）”。

AI在充分理解这些“积木元件”功能的基础上，学习用此类元件拼装而成的“拼图”，比如FlappyBird、2048等游戏。说得再通俗一点，就是在“拼积木”的过程中见过“飞机”怎么拼，“坦克”怎么拼，将来需要拼“装甲车”的时候，只要告诉AI“装甲车”长什么样，它就能拼了，这就是应用了当前生成式AI特有的推理能力和涌现能力。

AutoGame团队研发的text2game工具可以让用户通过对话在工业引擎中生成游戏

前段时间，Meta发布了可以将多种数据流连接在一起的ImageBind，把图像、文本、音频、深度、热数据和 IMU 数据结合在一起，这就意味着多感官内容创造的逐步实现。也就是说，机器开始能和人类一样进行整体学习，引擎开始能理解并连接不同的信息形式，直接预测数据间的联系，并且逐步能以类人模型，进行感知与环境想象。

这类底层技术的迭代，真正会让生成游戏内容逐渐变为现实。但是，技术和产业的结合一定需要时间和数据准备周期，生成式AI和游戏领域的集成才刚开始，成为全球最早一批真正下场去做这件事情的团队，我们也觉得非常幸运。

记者：游戏的全要素生成，会是怎样的发展进程，什么时候能真正实现？

张昊阳：“全要素生成”这个概念是我首先提出的，选择从腾讯离职，创业成立AutoGame这家公司，也是为了实现“全要素生成”这个目标。我们认为，未来的三到五年内，这个目标就能够初步实现。

首先，在当前AI能力框架下，需要填补的最后一环就是游戏逻辑（游戏玩法）的实时生成。由于目前3D生成技术有待进一步成熟，这里我们以2D游戏为例。像小霸王和GBA这类游戏，无论是图像、2D动画、音效、音乐、语音生成，以及整个关卡布置等，现成技术的完成度都不错。

但是，在现有技术背景下，游戏逻辑（游戏玩法）的生成，尚待填补“最后一块拼图”。AutoGame要实现的目标，就是实现游戏逻辑的生成。这里我们把Agent定义为数字员工，逐步代替人类去完成游戏设计与游戏运行过程中的任务。比如说，数字员工可代替开发者写代码、代替人类生成数字资产、自动拼凑关卡等等。

3D生成技术也会迎来新突破。目前基于已有视频和图像的三维生成的技术也已相对成熟，像NeRF（Neural Radiance Fields：研究目的是合成同场景不同视角下的图像）这样的新领域和点线面这类传统三维模型范式，在模型静止的状态下，都可以输出相对较高的还原度。但是，还是要关注如何输出可蒙皮、可运动的内容，这些都属于非常值得探索和发展的技术。

最后就是前面提到的游戏垂直领域的数据积累，需要一个过程。不过，这需要我们和行业内所有生态伙伴，共同深耕，和全球游戏开发者和研究者们一起，共同努力，直到实现“全要素生成”这个目标。

记者：从伊甸岛到AutoGame，有什么样的心路历程？

张昊阳：在腾讯的时候，做AIGC预研和伊甸岛的过程中，有过很多技术验证的实践，特别是去探索AI是否具备人性，以及AI如何能更好地运用在游戏工业中。那时我们有非常熟悉的一帮朋友，都很喜欢尝试探索新技术和新场景，共计11名小伙伴组成的“伊甸计划”，大家一起去探讨、思索究竟AI以怎样的形式赋能游戏领域。

而AutoGame，是我在探索全要素生成的实现路径中，结合这些年的游戏研发经验，将产品形态、技术路径、商业模式、团队构成打磨成熟以后决定去成立的创业团队。AutoGame的所有成员都特别热爱游戏行业，大家都觉得，我们有一种天然使命感，去实现人工智能在游戏工业的真正价值。

于我个人来说，从伊甸计划到AutoGame是有一定的传承的。在伊甸岛的实践，是涉及如何从零到一探索Generative agents游戏的制作，明确游戏如何运用AI来全流程完成的游戏，主要使用AI数字员工，服务于游戏生产。

而AutoGame，则是真正要探索人工智能在游戏工业中更大、更远的未来，特别是如何和产业真正结合起来。我们希望有朝一日，所有热爱游戏的玩家，都能体验由我们亲手打造的全要素生成游戏。

记者：你怎么看头号玩家里的世界？聊聊未来？

张昊阳：游戏其实早就不止于游戏本身。在满足人们精神娱乐消费需求之外，游戏可以仿真现实世界的场景。人工智能在游戏过程中，可以去理解三维世界和空间，理解人类创造的虚拟世界规则，这样一来，就可以让AI做到更多现有能力无法做到的事情，让AI智能得到更好的发展。

游戏也具备原生多模态能力场景。多模态把文字、图像、视频、声音等不同的媒体形态，组合到同一场景当中，游戏其实是非常好的能够实践多模态能力的舞台，杨立昆（Yann Lecun）也提到过关于世界模型的预言。

我们希望能够在多模态和类游戏场景下，让AI大放异彩，这样AI可以学到更多的能力，反哺现实世界，最终服务于整个人类。

我们希望AutoGame可以实现这个愿景，随着行业周期演变，以及游戏领域更多的text2game公司逐步崛起，大家共同构建一个良好的数据生态，到那个时候，玩家和创作者只要提供一个点子，通过生成式人工智能技术，想要的游戏直接就可以生产出来。

等这一天真正到来的之时，创意就会解放，电影头号玩家里描述的情景就会成为现实，我们满怀期待地为这一天的到来而努力。

····· End ·····

GameLook每日游戏产业报道

全球视野 / 深度有料

爆料 / 交流 / 合作：请加主编微信 igamelook

广告投放 : 请加 QQ：1772295880

长按下方图片，"识别二维码" 订阅微信公众号

····· 更多内容请访问 www.gamelook.com.cn ·····

觉得好看，请点这里 ↓↓↓

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章