英伟达专家分享AI Agent最新开发经验!(专业长文,建议收藏)
3月28日,王煜全在直播中和大家详细解读了英伟达GTC2024,站在科技和产业的角度和大家分析了英伟达的未来前景,AI变革的下一轮机会。
直播中,王煜全告诉大家,GTC2024共用1010场开发者、专家分享,有非常多前沿动态值得关注。
今天,创新地图的小伙伴就为大家带来Jim Fan 英伟达研究经理的最新分享,以及现场问答。
Jim Fan的研究领域涵盖AI基础模型、策略学习、机器人技术、多模型学习和大规模系统,目前关注AI最前沿的AI Agent开发。
以下是整理后的内容实录,如果你想了解更多科技产业前沿趋势,欢迎点击文首入口,加入前哨科技特训营。
Jim Fan演讲内容
我来跟大家分享一个2016年春天上课的故事。
我那时并没专心听课,反而在看一个棋类游戏的比赛。这不只是一场比赛,它很特别。比赛是DeepMind AlphaGo对战AI,AI赢了五场中的三场,成为第一个击败人类冠军的AI。
我仍然记得当时兴奋的感觉,第一次看到AI Agent战胜人类,展示出了技术无限的可能,但很快我意识到AlphaGo只能下棋,它不能玩其他游戏,也不能洗衣服。
我们想要的是像《星球大战》中的机器人那样多才多艺的AI Agent。要达到这个目标,我们需要关注技能数量、控制力和实际情况。
我一直在思考如何实现这个目标。今年早些时候,在老黄的支持下我创建了Gear实验室,接受研发通用人工智能的挑战。
站在今天,要研发通用人工智能需要什么呢?
首先,需要能够开放编辑的环境。
Agent的复杂性由环境决定,地球的多样性使得自然演化能够产生多种行为,开发聪明的智能体也是如此。
如果我们有一个模拟器,它基本上是一个简化的地球,我们可以在它上面运行,为Agent提供大量的预先训练的数据。这些数据只是一个关于如何做事的参考手册。最后,我们需要一个可以处理这些大数据的模型。
这个想法导致我们选择了Minecraft,一个非常受欢迎的视频游戏。
对于不熟悉的人,Minecraft是一个由3D方块生成的世界,你可以在里面做任何你想做的事情。Minecraft的特点是没有明确的目标,这使得它非常适合作为一个开放的模拟器。
在Minecraft中,我们看到了很多令人印象深刻的创作,比如有人建造了霍格沃茨城堡的模型,还有人建造了一个有功能的大型神经网络。
Minecraft有1.4亿用户,这是英国人口的两倍多。这些活跃的游戏玩家产生了大量的数据。
问题是,我们如何利用这些数据?这就是我们使用Mine Dojo的原因,它是一个新的框架,帮助开发者使用Minecraft开发AI Agent。Mine Dojo包括一个模拟器和一个数据库,并提供了一些API,可以帮助我们解锁游戏的潜力,完成很多自定义工作。
其次,要有训练Agent的数据。
我们想让一个机器人建造房子,必须先回答什么是房子,建造房子该怎么做?简单的语言规则中很难定义。
我们最开始想到的就是用互联网知识训练基础模型,让AI Agent能理解并利用这些知识。
这很困难,因为我们的数据库包括视频、Minecraft的页面和子论坛。我们收集了很多Minecraft的视频和页面,感谢玩家们很热衷于讨论各种游戏的细节,让我们得到足够多的数据。
现在我们要开始训练了。
第一步很简单。我们尝试对YouTube的视频剪辑进行对齐,把那些教授人类玩家的教程视频变成可以用来训练AI的数据。
然后我们可以通过一个叫做“压缩学习”的过程来训练,基本上就是把视频和文字压缩在一起,让AI学会各种操作的关系
开发中我们喜欢称这个过程为通过人类反馈来加强学习,本质就是用玩家分享的视频教会Agent该怎么做,最终Agent在Minecraft里走路这件事做得比AlphaGo好。
但这里仍然有个问题,我们必须手动设置每个任务的目标,一个技能一个技能训练AI,每个技能都必须有教程才行,能不能让AI自己学会新的技能?
于是我们用上GPT4,通过它的编程和规划能力,Agent可以无休止地玩游戏,一个名为Voyager的Agent就一直在游戏中,穿越地形,和怪物战斗,制作各种配方。
我们是如何实现的呢?多亏了一个叫Flare的开源Minecraft模组,Voyage利用GPT4生成javascript代码,积累技能,进行各种操作。
就像人类工程师一样,AI编码总会有Bug,所以我们开发了一个自我反省的系统来帮助它优化。
自我反省关注三个方面:javascript程序错误,Agent的身体状态和环境状态。
Agent会采取的行动,如果代码成功执行,就会观察世界和自己的变化,思考如何能做得更好,尝试更多的行动,然后重复这个过程。
对人类而言当技能成熟,它就会被存储在记忆中。你可以把记忆看作是通过试错编写的代码库,Agent也一样,所以它遇到相似情况,可以从库中查找技能,然后解决问题。
让我们来看看一个例子,Agent的饥饿条下降得很厉害,所以它需要找到食物。
它开始思考,种子怎么样?我可以种一片农场。但这会花费太长时间。所以,很抱歉,它打开代码库,找一个旧技能来制作铁剑,然后开始学习一个新技能,叫做狩猎。
没有了生存需求,Voyager是如何保持兴趣的呢?我们可以给Voyager一个高级的直接指令,那就是尽可能获取新奇的物品,在GPT4的驱动下,Voyager能够不断发现新技能。
我们没有预先设定其他的要素,Agent因为好奇一直在探索,获取尽可能多的新奇物品,学会新技能。
Agent已经在虚拟世界中学会了很多技能,那下一步它能不能运用到现实中呢?
这就需要解决人工智能和机器人的跨学科问题,所以我们创建了一个模型metamorph,让它编写机器人的电机控制,因为我们想让AI拥有适配不同机器人的通用策略。
采用与Minecraft中相同的训练策略,我们为AI大模型设定了一个目标,并让它自己判断是否成功,仅仅通过视频数据就训练不同的虚拟机械人完成复杂的任务,成功地进行物理模拟,速度比实时训练快1000倍,一个虚拟环境中的AI机器人只用三天的模拟完成了十年的训练,学会了令人印象深刻的武术技能。
这一切都可以在英伟达的Isaac Sim中完成。
接下来,我为大家展示Euraka实验项目。
开发机器手的操作,通常需要人类工程师反复调整,花费很多时间,只有非常熟悉的工程师才能完成。
现在有了基于AI大模型的奖励机制,就可以训练Eureka主动获得奖励,并自动反馈结果,强化学习。
Eureka还会自己设定目标,能找到比专家更好的奖励标准来训练机器手旋转笔。
我希望Eureka的下一代将成为一个完全自动化的平台,以训练更好的Agent并进行迭代。我的梦想是有一天我可以悄悄过一个长假,Eureka自己继续工作,并向我报告进度。
不过这事不能让老黄知道。
我相信训练都是相似的,所有的语言任务,无论是表达文本还是计算税收,都可以通过ChatGPT接受收入,并输出行动完成。
昨天,老黄发布了英伟达的人型机器人计划,我们的任务就是创建一个AI大模型驱动的机器人,并让它看起来像人。
为什么要让它看起来像人呢?因为人的形态是最常见的。我们生活的世界是为人类设计的,所以我们能做的事情,一个先进的机器人理论上也能做。
我很高兴能和一群领先的人一起工作,让AI大模型能够学会各种技能,并转移到真实的世界里。
我相信,在我们的未来,所有能动的东西都会动,就像在《机器人总动员》《星球大战》和《头号玩家》中看到的那样,这就是我们的目标,把通用人工智能带到开放的世界中。
欢迎大家加入我们的旅程。
现场问答
提问人1:很感谢Jim。我对接下来的事情感到兴奋。我很好奇你怎么看这两条开发路线,用GPT-4学会所有的技能操作游戏中的AI Agent,或者像你说的用GPT-4进行强化学习,教会另一个AI完成任务。你觉得哪种方法更有效,或者可能是它们的结合?Jim:我觉得这是个好问题。
Jim Fan:人脑中系统1是快速反应,而系统2是缓慢的高级推理。你的大脑有慢速部分,比如设定奖励目标,检查问题,也有快速部分进行自动化控制。
使用GPT4的问题在于总要输出文字进行控制,这永远会有一个延迟,所以我认为两条路线会有区别。
提问人2:我的问题是Nvidia的Gear实验室目的是什么?你们只是做研究,还是打算生产一个高级解决方案给机器人公司?
Jim Fan:这是一个很好的问题,我认为Gear的定位就是使命驱动。
从根本上说我们还是一个研究实验室,并不是方案提供商,一个主要原因是现在并没有成熟的机器人硬件标准。
世界上没有人真正知道如何开发机器人,这就是为什么对于机器人行业模拟很重要的原因,需要通过模拟来确定有用的机器人是什么样。
就像现在的人形机器人,大家都期待家里有一个可以做所有脏活的人形机器人。
要实现它,需要确保机器人能工作,然后要能大规模部署,还要有AI模型提供智能,这一切都还没有准备好,所以朝着这个愿景进发更像是使命驱动。
提问人3:现在很多人都担心AI对现有职业和教育的冲击,请你分享一下学生和教育体系该做些什么呢?
Jim Fan:现在AI的一个好处是学习门槛已经大大降低。任何中学生都可以注册一个账户,然后开始使用AI,开发AI Agent。
他们甚至可以在不花费太多资金的情况下,复制前面提到的Voyager,代码是开源的。
现在的AI门槛已经降低到,高中生不会代码也能参与,所以我希望年轻人能从中学开始就使用AI大模型,做一些API开发。
【前哨科技特训营第四季前瞻】
1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容,实际平均时长为2小时。
3. 每周四晚八点准时直播,会员可无限次观看回放。
4. 新入会员,可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接
8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。
1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容,实际平均时长为2小时。
3. 每周四晚八点准时直播,会员可无限次观看回放。
4. 新入会员,可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接
8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。
微信扫码关注该文公众号作者