英伟达专家分享AI Agent最新开发经验！（专业长文，建议收藏）

公众号新闻

2024-03-29 22:03

▲ 点击订阅，抓住风口

3月28日，王煜全在直播中和大家详细解读了英伟达GTC2024，站在科技和产业的角度和大家分析了英伟达的未来前景，AI变革的下一轮机会。

直播中，王煜全告诉大家，GTC2024共用1010场开发者、专家分享，有非常多前沿动态值得关注。

今天，创新地图的小伙伴就为大家带来Jim Fan 英伟达研究经理的最新分享，以及现场问答。

Jim Fan的研究领域涵盖AI基础模型、策略学习、机器人技术、多模型学习和大规模系统，目前关注AI最前沿的AI Agent开发。

以下是整理后的内容实录，如果你想了解更多科技产业前沿趋势，欢迎点击文首入口，加入前哨科技特训营。

Jim Fan演讲内容

我来跟大家分享一个2016年春天上课的故事。

我那时并没专心听课，反而在看一个棋类游戏的比赛。这不只是一场比赛，它很特别。比赛是DeepMind AlphaGo对战AI，AI赢了五场中的三场，成为第一个击败人类冠军的AI。

我仍然记得当时兴奋的感觉，第一次看到AI Agent战胜人类，展示出了技术无限的可能，但很快我意识到AlphaGo只能下棋，它不能玩其他游戏，也不能洗衣服。

我们想要的是像《星球大战》中的机器人那样多才多艺的AI Agent。要达到这个目标，我们需要关注技能数量、控制力和实际情况。

我一直在思考如何实现这个目标。今年早些时候，在老黄的支持下我创建了Gear实验室，接受研发通用人工智能的挑战。

站在今天，要研发通用人工智能需要什么呢？

首先，需要能够开放编辑的环境。

Agent的复杂性由环境决定，地球的多样性使得自然演化能够产生多种行为，开发聪明的智能体也是如此。

如果我们有一个模拟器，它基本上是一个简化的地球，我们可以在它上面运行，为Agent提供大量的预先训练的数据。这些数据只是一个关于如何做事的参考手册。最后，我们需要一个可以处理这些大数据的模型。

这个想法导致我们选择了Minecraft，一个非常受欢迎的视频游戏。

对于不熟悉的人，Minecraft是一个由3D方块生成的世界，你可以在里面做任何你想做的事情。Minecraft的特点是没有明确的目标，这使得它非常适合作为一个开放的模拟器。

在Minecraft中，我们看到了很多令人印象深刻的创作，比如有人建造了霍格沃茨城堡的模型，还有人建造了一个有功能的大型神经网络。

Minecraft有1.4亿用户，这是英国人口的两倍多。这些活跃的游戏玩家产生了大量的数据。

问题是，我们如何利用这些数据？这就是我们使用Mine Dojo的原因，它是一个新的框架，帮助开发者使用Minecraft开发AI Agent。Mine Dojo包括一个模拟器和一个数据库，并提供了一些API，可以帮助我们解锁游戏的潜力，完成很多自定义工作。

其次，要有训练Agent的数据。

我们想让一个机器人建造房子，必须先回答什么是房子，建造房子该怎么做？简单的语言规则中很难定义。

我们最开始想到的就是用互联网知识训练基础模型，让AI Agent能理解并利用这些知识。

这很困难，因为我们的数据库包括视频、Minecraft的页面和子论坛。我们收集了很多Minecraft的视频和页面，感谢玩家们很热衷于讨论各种游戏的细节，让我们得到足够多的数据。

现在我们要开始训练了。

第一步很简单。我们尝试对YouTube的视频剪辑进行对齐，把那些教授人类玩家的教程视频变成可以用来训练AI的数据。

然后我们可以通过一个叫做“压缩学习”的过程来训练，基本上就是把视频和文字压缩在一起，让AI学会各种操作的关系

开发中我们喜欢称这个过程为通过人类反馈来加强学习，本质就是用玩家分享的视频教会Agent该怎么做，最终Agent在Minecraft里走路这件事做得比AlphaGo好。

但这里仍然有个问题，我们必须手动设置每个任务的目标，一个技能一个技能训练AI，每个技能都必须有教程才行，能不能让AI自己学会新的技能？

于是我们用上GPT4，通过它的编程和规划能力，Agent可以无休止地玩游戏，一个名为Voyager的Agent就一直在游戏中，穿越地形，和怪物战斗，制作各种配方。

我们是如何实现的呢？多亏了一个叫Flare的开源Minecraft模组，Voyage利用GPT4生成javascript代码，积累技能，进行各种操作。

就像人类工程师一样，AI编码总会有Bug，所以我们开发了一个自我反省的系统来帮助它优化。

自我反省关注三个方面：javascript程序错误，Agent的身体状态和环境状态。

Agent会采取的行动，如果代码成功执行，就会观察世界和自己的变化，思考如何能做得更好，尝试更多的行动，然后重复这个过程。

对人类而言当技能成熟，它就会被存储在记忆中。你可以把记忆看作是通过试错编写的代码库，Agent也一样，所以它遇到相似情况，可以从库中查找技能，然后解决问题。

让我们来看看一个例子，Agent的饥饿条下降得很厉害，所以它需要找到食物。

它开始思考，种子怎么样？我可以种一片农场。但这会花费太长时间。所以，很抱歉，它打开代码库，找一个旧技能来制作铁剑，然后开始学习一个新技能，叫做狩猎。

没有了生存需求，Voyager是如何保持兴趣的呢？我们可以给Voyager一个高级的直接指令，那就是尽可能获取新奇的物品，在GPT4的驱动下，Voyager能够不断发现新技能。

我们没有预先设定其他的要素，Agent因为好奇一直在探索，获取尽可能多的新奇物品，学会新技能。

Agent已经在虚拟世界中学会了很多技能，那下一步它能不能运用到现实中呢？

这就需要解决人工智能和机器人的跨学科问题，所以我们创建了一个模型metamorph，让它编写机器人的电机控制，因为我们想让AI拥有适配不同机器人的通用策略。

采用与Minecraft中相同的训练策略，我们为AI大模型设定了一个目标，并让它自己判断是否成功，仅仅通过视频数据就训练不同的虚拟机械人完成复杂的任务，成功地进行物理模拟，速度比实时训练快1000倍，一个虚拟环境中的AI机器人只用三天的模拟完成了十年的训练，学会了令人印象深刻的武术技能。

这一切都可以在英伟达的Isaac Sim中完成。

接下来，我为大家展示Euraka实验项目。

开发机器手的操作，通常需要人类工程师反复调整，花费很多时间，只有非常熟悉的工程师才能完成。

现在有了基于AI大模型的奖励机制，就可以训练Eureka主动获得奖励，并自动反馈结果，强化学习。

Eureka还会自己设定目标，能找到比专家更好的奖励标准来训练机器手旋转笔。

我希望Eureka的下一代将成为一个完全自动化的平台，以训练更好的Agent并进行迭代。我的梦想是有一天我可以悄悄过一个长假，Eureka自己继续工作，并向我报告进度。

不过这事不能让老黄知道。

我相信训练都是相似的，所有的语言任务，无论是表达文本还是计算税收，都可以通过ChatGPT接受收入，并输出行动完成。

昨天，老黄发布了英伟达的人型机器人计划，我们的任务就是创建一个AI大模型驱动的机器人，并让它看起来像人。

为什么要让它看起来像人呢？因为人的形态是最常见的。我们生活的世界是为人类设计的，所以我们能做的事情，一个先进的机器人理论上也能做。

我很高兴能和一群领先的人一起工作，让AI大模型能够学会各种技能，并转移到真实的世界里。

我相信，在我们的未来，所有能动的东西都会动，就像在《机器人总动员》《星球大战》和《头号玩家》中看到的那样，这就是我们的目标，把通用人工智能带到开放的世界中。

欢迎大家加入我们的旅程。

现场问答

提问人1：很感谢Jim。我对接下来的事情感到兴奋。我很好奇你怎么看这两条开发路线，用GPT-4学会所有的技能操作游戏中的AI Agent，或者像你说的用GPT-4进行强化学习，教会另一个AI完成任务。你觉得哪种方法更有效，或者可能是它们的结合？Jim：我觉得这是个好问题。

Jim Fan：人脑中系统1是快速反应，而系统2是缓慢的高级推理。你的大脑有慢速部分，比如设定奖励目标，检查问题，也有快速部分进行自动化控制。

使用GPT4的问题在于总要输出文字进行控制，这永远会有一个延迟，所以我认为两条路线会有区别。

提问人2:我的问题是Nvidia的Gear实验室目的是什么？你们只是做研究，还是打算生产一个高级解决方案给机器人公司？

Jim Fan：这是一个很好的问题，我认为Gear的定位就是使命驱动。

从根本上说我们还是一个研究实验室，并不是方案提供商，一个主要原因是现在并没有成熟的机器人硬件标准。

世界上没有人真正知道如何开发机器人，这就是为什么对于机器人行业模拟很重要的原因，需要通过模拟来确定有用的机器人是什么样。

就像现在的人形机器人，大家都期待家里有一个可以做所有脏活的人形机器人。

要实现它，需要确保机器人能工作，然后要能大规模部署，还要有AI模型提供智能，这一切都还没有准备好，所以朝着这个愿景进发更像是使命驱动。

提问人3：现在很多人都担心AI对现有职业和教育的冲击，请你分享一下学生和教育体系该做些什么呢？

Jim Fan：现在AI的一个好处是学习门槛已经大大降低。任何中学生都可以注册一个账户，然后开始使用AI，开发AI Agent。

他们甚至可以在不花费太多资金的情况下，复制前面提到的Voyager，代码是开源的。

现在的AI门槛已经降低到，高中生不会代码也能参与，所以我希望年轻人能从中学开始就使用AI大模型，做一些API开发。

【前哨科技特训营第四季前瞻】

1. 前哨科技特训营直播课程第四季（2023年）共50讲+，除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容，实际平均时长为2小时。
3. 每周四晚八点准时直播，会员可无限次观看回放。
4. 新入会员，可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】，最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】，链接科技/产业一线人士，打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会，接触科技/产业专家，获取最新、最前沿的趋势洞察，人脉链接
8. 本课程为虚拟内容服务，年费订阅服务制。一经订阅概不退款，线下活动需另行支付差旅成本，请您理解。

【课程咨询】

请加“创新地图助手”：

微信：innovationmapSM

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章