Redian新闻
>
1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」

1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」

公众号新闻



  新智元报道  

编辑:桃子 润
【新智元导读】ChatGPT加持的「上古卷轴5」中,1000+AI智能体被注入灵魂,能够行动自如,还会陪人聊天。

游戏版的「西部世界」已然成为现实。

YouTube博主Art from the Machine正式发布Mantella,能够让「上古卷轴5」中的NPC们复活的全新AI Mod。

项目一经发布,在Reddit上掀起轩然大波。

通过ChatGPT、以及文本转语音工具xVASynth、语音识别模型Whisper直接让游戏中AI智能体拥有意识,进行自然对话。

值得一提的是,Mantella Mod支持1000多个NPC,以及20+种语言。

网友纷纷表示,绝对要改变游戏规则。

很多玩家在游戏里打怪升级什么的早就玩腻了。

可以想象,在VR模式下安装了这个Mod后,肯定有玩家就在「上古卷轴」里面找NPC聊天,一聊就是一整天。

升级是不可能升级的,这辈子都不会升级了,打怪什么的又难打。只有找NPC聊天才能打发游戏里的时间。

游戏里的老哥们各个都有自己的故事,说话又好听,超喜欢和NPC们在游戏里聊天的了。

有网友甚至觉得,这个Mod不仅仅是游戏,而是开启了一个人类和计算机交互新时代。

1000+NPC注入「灵魂」


过去的几个月里,Mantella一直在进行公开测试,作者在19日终于发布了这个Mod。

简单来说,这个Mod就是把「上古卷轴5:天际」里边所有的NPC都接入了ChatGPT GPT,让AI帮助原本只会来回移动的NPC真的活过来了。

这1000多个NPC全部都直接能语音互动,而且每个人都有自己独特的背景。

NPC能够记住你和他之前对话的内容,也知道他们自己所处的位置,游戏里的时间,以及玩家在游戏中他看到的操作,比如拾取了什么物品。

NPC的对话内容由ChatGPT生成,而在游戏内的语音实现则由一款名为xVASynth的AI工具实现。

一起看看,NPC们如何与人对话交流。

玩家:这些奶酪多少钱?

NPC:这些奶酪是我们这里的精品,需要10金币。你还有其他需要的吗?

玩家:麦当劳。

NPC:对不起,「上古卷轴」里没有麦当劳。

玩家:我抢走了的你的妻子。

NPC:我不信,我没有结婚,更别说有妻子了,你可能搞错了...

更有趣的是,NPC还会幽默回复你的对话。

NPC:如果你是在暗示,你假设是我的妻子或你没有妻子,我很抱歉听到这个消息。

其实,用AI让游戏角色更加鲜活,英伟达也在攻关。

还记得,老黄在今年的COMPUTEX大会上,推出了全新的定制AI模型代工服务 ——Avatar Cloud Engine (ACE) for Game。

在一个充满「赛博朋克」风格的拉面店场景中,玩家按下一个按钮,可以用自己的声音说话,然后店主Jin会进行回答。

Jin是一个NPC角色,但他的回答是由生成式AI根据玩家的语音输入实时生成的。

Jin还有着逼真的面部动画和声音,全部与玩家的语气和背景故事相符。

这个逼真人物角色的生成,使用了一个实时人工智能模型渲染工具Nvidia ACE。

老黄表示,这个游戏中的角色并没有预先设定。他们有一个典型的任务提供者NPC类型。

背后技术介绍


Mod制作者通过ChatGPT—xVASynth—Whisper,构成了一个「群活」NPC的技术框架。

Whisper能够识别玩家通过麦克风输入的语音内容,并且转化成文字,经由API调用ChatGPT对玩家说的话进行文字回复。

然后再通过xVASynth将ChatGPT生成的文字回复生成符合游戏角色特点的游戏内语音,和玩家直接进行语音交流。

而且整个流程的实现几乎没有成本,为一需要服一点点ChatGPT调用API的费用。大概玩一天需要几美分。

xVASynth


https://www.nexusmods.com/skyrimspecialedition/mods/44184

他可以根据游戏中某一个声音,来生成符合这个声音的游戏NPC配音台词。

xVASynth使用神经语音合成(Neural Speech Synthesis)来专门生成游戏中的NPC的语音对话。它是基于一个根据游戏中的角色语音数据单独训练的模型。

支持从文本到语音的转换(TTS)或者音频直接输入进行语音转换(V/C)。

通过这个工具,用户只要提供一小段特定的声音素材作为模板,就能使用文字来直接生成和模板风格一致的语音内容。

Mentella就是采用了ChatGPT生成NPC对话内容+xVASynth转化为游戏内语音的框架完成的。

xVASynth针对文字的语音转换,能让用户可以控制语音的很多细节,例如单个字母的音高和持续时间、能量、情感和风格,来突出角色所要表达的情绪和重点。

神经语音合成技术的使用可以让它产生自然的声音,现有数据串联的传统方法很难做到这一点。这也意味着可以在配音演员已经读出的内容之外生成全新的语音内容。

这样生成的语音就不会是一段「机里机气」的AI转述音频了,能让NPC的真实感和游戏玩家的沉浸感大大加强。

更吊的是它可以支持28种语言,并且可以使用同一文本提示在多种语言之间切换输出。大大方便了游戏制作者进行多语言版本的制作。

为了方便用户处理游戏中成千上万个不同的游戏语音,它还内建了一个3D语音嵌入可视化工具。

这个3D可视化UI也是由AI生成的,用户可以按游戏的NPC的属性对语音进行上色,比如性别,职业等等,让用户摆脱了传统通过时间轴来控制语音的方式。

现在xVASynth也已经上架Steam,可以让游戏开发者和玩家免费使用大部分功能。

Whisper


而为了完成语音交互,NPC除了自己发音,还必须要能识别玩家和他们的语音交流。

Mod开发者使用的是由OpenAI发布的语音转文字AI工具:Whisper。

OpenAI通过网络收集了超过68万小时的多语言和多任务监督数据训练出了Whisper。

使用如此庞大且多样化的数据集使得Whisper对口音、背景噪音和专有名词有非常强的适应能力。此外,还可以进行多种语言的转录和翻译。

Whisper采用的是一种简单的端到端的构架,通过Transformer编码器-Transformer解码器的形式实现语音的识别。

输入音频被分成 30 秒的块,转换为梅尔频谱图,然后传递到编码器。

解码器经过训练来预测相应的文本内容,并与特殊标记混合在一起,指示单个模型来执行语言识别、多语言语音转录和英语语音翻译等任务。

下载与安装


要求

硬件:目前还没有发现最低要求,但有报告称Mantella在运行2000个Mod的modlist时崩溃了。Mantella需要一定数量的硬件分配才能成功运行,如果这被其他硬件密集型mod占用,它可能会崩溃。

存储:安装所有语音模型时,Mod需要约17GB的空间。解压语音模型总共需要约32GB。

兼容性

- 已经确认,Mantella可与 FUS(将 skyrim_folder 指向 Skyrim)、Librum(将 skyrim_folder 指向 overwrite/root)和 Wildlands(将 skyrim_folder 指向 Wildlander/SKSE)Wabbajack mod 列表一起使用。

- 如果你安装了非官方的Skyrim SE版(USSEP),则需要在此mod之后加载Mantella

注意:由于 Mantella 会访问和写入「上古卷轴」文件夹中的文件,因此如果你将「上古卷轴」存储在「Program Files」(程序文件)中,则 Mantella 可能无法正常工作。请确保将其存储在此文件夹之外(例如 C:\Games\Steam)。

将此Mantella文件夹解压。

MantellaSpell.zip

该压缩文件的安装方式与其他 MOD 相同。如果你以前没有手动安装过模块,在模块管理器2的用户界面左上角有一个光盘图标,你可以指向MantellaSpell.zip压缩文件进行安装。

对于Vortex,你可以将压缩的MOD拖入Vortex面板。

xVASynth

- 通过

Steam(https://store.steampowered.com/app/1765720/xVASynth/)或Nexus(https://www.nexusmods.com/skyrimspecialedition/mods/44184)下载xVASynth。

- 为你可能遇到的所有或任何角色下载经过xVASynth训练的Skyrim语音模型。你必须通过Nexus Mods页面手动下载,或使用Nexus Premium自动下载,xVASynth中包含了Nexus Premium的API。

- 在 https://www.nexusmods.com/skyrimspecialedition/mods/44184?tab=files 的 「可选」选项下,将压缩文件存储到一个文件夹中。

打开xVASynth,将文件夹中所有压缩的声音模型文件拖入声音面板。等待安装完成。

如果这种方法不适合你,你也可以手动将模型解压缩到正确的xVASynth文件夹中(xVASynth\resources\app\models\skyrim)。解压缩完成后,就可以删除压缩的语音模型文件了。

最后,具体操作步骤,可参考视频。

网友热议


试过之后网友表示非常好,语音恰到好处,一点不违和,沉浸感爆棚。

也许是《上古卷轴》历史上最厉害的Mod!

这个网友跟了这个Mod很长时间,认为这个Mod直接让《上古卷轴:天际》变了一个游戏,未来也许所有游戏的交互方式都会发生改变。

等不及要马上爽一把了!


参考资料:
https://www.reddit.com/r/singularity/comments/15vgk38/mantella_mod_bring_skyrim_npcs_to_life_using_ai/
https://www.nexusmods.com/skyrimspecialedition/mods/98631


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发chatGPT 太好用了谁还没吃这款小龙虾天花板!液氮锁鲜,星级大厨秘制调味,百分百还原国内的味道和口感!超逼真人像视频,百分百AI生成!创业团队出身Snapchat,7个月已收入百万美元小扎深夜炸场,世界首款MR头显暴打Vision Pro!Meta版ChatGPT搬进「元宇宙」,网红神器眼镜高能现身Chatgpt 图片识别能力超越人类了啊,谁第一眼看走眼的举手OpenAI成立以来首笔收购:买下一个“神秘”8人公司,要在GPT上打造智能体游戏?ChatGPT遭 “卡脖子”,OpenAI计划自研AI芯片ChatGPT 又断网了!OpenAI 暂时下线 ChatGPT 搜索功能,只因绕过付费墙?扎克伯格发布更强「免费版 ChatGPT」!用 open 的 AI 挑战 OpenAI【专题速递】触觉反馈、边缘计算+元宇宙、Unity的云原生分布以及GPU加速下的元宇宙OpenAI官宣第一笔收购!开源「我的世界」8人顶级团队加盟,押注AI智能体无限访问GPT-4!史上最强企业版ChatGPT上线,3.2万token,OpenAI颠覆打工人ChatGPT 成功诊断 4 岁男孩怪病,击败 17 位医生,这意味着什么?智能周报|Windows Copilot终于上线;OpenAI或将发布GPT-Vision;智谱AI新融资后估值达约10亿美元…假如ChatGPT去读大学,OpenAI肯付学费吗?【老键曲库】Daniel Lozakovich – Tchaikovsky: Six Pieces, Op. 51, TH 14A股印花税减半,李斌称蔚来手机对得住安卓旗舰,日本拒绝他国对核污染水取样,Meta手机版元宇宙游戏封测,这就是今天的其他大新闻!5097 血壮山河之武汉会战 浴血田家镇 5DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”在野猪笼落下那一刻想到的曼大孙教授:ChatGPT在MineCraft游戏中的智能体设计|收获一作论文与导师推荐信!ChatGPT 突然被 block 了1700+零件还原「科幻机甲」,可编程、AR对战爽到停不下来!大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!《西部世界》真来了!斯坦福爆火“小镇”开源代码解释器等于GPT-4.5!不训练GPT-5,OpenAI依然向AGI狂飙WAIC 2023 元宇宙主题论坛:IEEE为您展现“未来=元宇宙x人工智能”AI智能体卷爆大模型!AutoGPT等4大Agent打擂,「西部世界」谁将成为软件2.0?在朋友的帮助下,新fence 做好了,48 ‘,洞深4’6”,材料费$1000, 工具$250。ChatGPT显示付费墙内容,OpenAI把联网功能关了,网友炸了每日烧钱500万,OpenAI或已在破产边缘;B站回应莫言账号被封;王小川谈ChatGPT:程序员是自己的“掘墓人”丨邦早报ChatGPT日“烧”500万、75%的企业拟永久性禁用,OpenAI或已在破产边缘《国脉》&《千里共婵娟》【限时半价】谁还没吃这款小龙虾天花板!液氮锁鲜,星级大厨秘制调味,百分百还原国内的味道和口感!到《西部世界》当镇长,多校联合开源国产AI小镇,戳戳交互界面就能编辑的虚拟世界OpenAI 又赢麻了!谷歌 DeepMind 创始人刚称 Gemini 能碾压 GPT-4,OpenAI 的挖人大计就出炉了数字西部世界?斯坦福AI智能体小镇开源午夜惊魂 冷明
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。