Redian新闻
>
英伟达专家分享AI Agent最新开发经验!(专业长文,建议收藏)

英伟达专家分享AI Agent最新开发经验!(专业长文,建议收藏)

公众号新闻
 点击订阅,抓住风口

3月28日,王煜全在直播中和大家详细解读了英伟达GTC2024,站在科技和产业的角度和大家分析了英伟达的未来前景,AI变革的下一轮机会。

直播中,王煜全告诉大家,GTC2024共用1010场开发者、专家分享,有非常多前沿动态值得关注。

今天,创新地图的小伙伴就为大家带来Jim Fan 英伟达研究经理的最新分享,以及现场问答。

Jim Fan的研究领域涵盖AI基础模型、策略学习、机器人技术、多模型学习和大规模系统,目前关注AI最前沿的AI Agent开发。

以下是整理后的内容实录,如果你想了解更多科技产业前沿趋势,欢迎点击文首入口,加入前哨科技特训营。

Jim Fan演讲内容




我来跟大家分享一个2016年春天上课的故事。

我那时并没专心听课,反而在看一个棋类游戏的比赛。这不只是一场比赛,它很特别。比赛是DeepMind AlphaGo对战AI,AI赢了五场中的三场,成为第一个击败人类冠军的AI。

我仍然记得当时兴奋的感觉,第一次看到AI Agent战胜人类,展示出了技术无限的可能,但很快我意识到AlphaGo只能下棋,它不能玩其他游戏,也不能洗衣服。

我们想要的是像《星球大战》中的机器人那样多才多艺的AI Agent。要达到这个目标,我们需要关注技能数量、控制力和实际情况。

我一直在思考如何实现这个目标。今年早些时候,在老黄的支持下我创建了Gear实验室,接受研发通用人工智能的挑战。

站在今天,要研发通用人工智能需要什么呢?

首先,需要能够开放编辑的环境。

Agent的复杂性由环境决定,地球的多样性使得自然演化能够产生多种行为,开发聪明的智能体也是如此。

如果我们有一个模拟器,它基本上是一个简化的地球,我们可以在它上面运行,为Agent提供大量的预先训练的数据。这些数据只是一个关于如何做事的参考手册。最后,我们需要一个可以处理这些大数据的模型。

这个想法导致我们选择了Minecraft,一个非常受欢迎的视频游戏。

对于不熟悉的人,Minecraft是一个由3D方块生成的世界,你可以在里面做任何你想做的事情。Minecraft的特点是没有明确的目标,这使得它非常适合作为一个开放的模拟器。

在Minecraft中,我们看到了很多令人印象深刻的创作,比如有人建造了霍格沃茨城堡的模型,还有人建造了一个有功能的大型神经网络。

Minecraft有1.4亿用户,这是英国人口的两倍多。这些活跃的游戏玩家产生了大量的数据。

问题是,我们如何利用这些数据?这就是我们使用Mine Dojo的原因,它是一个新的框架,帮助开发者使用Minecraft开发AI Agent。Mine Dojo包括一个模拟器和一个数据库,并提供了一些API,可以帮助我们解锁游戏的潜力,完成很多自定义工作。

其次,要有训练Agent的数据。

我们想让一个机器人建造房子,必须先回答什么是房子,建造房子该怎么做?简单的语言规则中很难定义。

我们最开始想到的就是用互联网知识训练基础模型,让AI Agent能理解并利用这些知识。

这很困难,因为我们的数据库包括视频、Minecraft的页面和子论坛。我们收集了很多Minecraft的视频和页面,感谢玩家们很热衷于讨论各种游戏的细节,让我们得到足够多的数据。

现在我们要开始训练了。

第一步很简单。我们尝试对YouTube的视频剪辑进行对齐,把那些教授人类玩家的教程视频变成可以用来训练AI的数据。

然后我们可以通过一个叫做“压缩学习”的过程来训练,基本上就是把视频和文字压缩在一起,让AI学会各种操作的关系

开发中我们喜欢称这个过程为通过人类反馈来加强学习,本质就是用玩家分享的视频教会Agent该怎么做,最终Agent在Minecraft里走路这件事做得比AlphaGo好。

但这里仍然有个问题,我们必须手动设置每个任务的目标,一个技能一个技能训练AI,每个技能都必须有教程才行,能不能让AI自己学会新的技能?

于是我们用上GPT4,通过它的编程和规划能力,Agent可以无休止地玩游戏,一个名为Voyager的Agent就一直在游戏中,穿越地形,和怪物战斗,制作各种配方。

我们是如何实现的呢?多亏了一个叫Flare的开源Minecraft模组,Voyage利用GPT4生成javascript代码,积累技能,进行各种操作。

就像人类工程师一样,AI编码总会有Bug,所以我们开发了一个自我反省的系统来帮助它优化。

自我反省关注三个方面:javascript程序错误,Agent的身体状态和环境状态。

Agent会采取的行动,如果代码成功执行,就会观察世界和自己的变化,思考如何能做得更好,尝试更多的行动,然后重复这个过程。

对人类而言当技能成熟,它就会被存储在记忆中。你可以把记忆看作是通过试错编写的代码库,Agent也一样,所以它遇到相似情况,可以从库中查找技能,然后解决问题。

让我们来看看一个例子,Agent的饥饿条下降得很厉害,所以它需要找到食物。

它开始思考,种子怎么样?我可以种一片农场。但这会花费太长时间。所以,很抱歉,它打开代码库,找一个旧技能来制作铁剑,然后开始学习一个新技能,叫做狩猎。

没有了生存需求,Voyager是如何保持兴趣的呢?我们可以给Voyager一个高级的直接指令,那就是尽可能获取新奇的物品,在GPT4的驱动下,Voyager能够不断发现新技能。

我们没有预先设定其他的要素,Agent因为好奇一直在探索,获取尽可能多的新奇物品,学会新技能。

Agent已经在虚拟世界中学会了很多技能,那下一步它能不能运用到现实中呢?

这就需要解决人工智能和机器人的跨学科问题,所以我们创建了一个模型metamorph,让它编写机器人的电机控制,因为我们想让AI拥有适配不同机器人的通用策略。

采用与Minecraft中相同的训练策略,我们为AI大模型设定了一个目标,并让它自己判断是否成功,仅仅通过视频数据就训练不同的虚拟机械人完成复杂的任务,成功地进行物理模拟,速度比实时训练快1000倍,一个虚拟环境中的AI机器人只用三天的模拟完成了十年的训练,学会了令人印象深刻的武术技能。

这一切都可以在英伟达的Isaac Sim中完成。

接下来,我为大家展示Euraka实验项目。

开发机器手的操作,通常需要人类工程师反复调整,花费很多时间,只有非常熟悉的工程师才能完成。

现在有了基于AI大模型的奖励机制,就可以训练Eureka主动获得奖励,并自动反馈结果,强化学习。

Eureka还会自己设定目标,能找到比专家更好的奖励标准来训练机器手旋转笔。

我希望Eureka的下一代将成为一个完全自动化的平台,以训练更好的Agent并进行迭代。我的梦想是有一天我可以悄悄过一个长假,Eureka自己继续工作,并向我报告进度。

不过这事不能让老黄知道。

我相信训练都是相似的,所有的语言任务,无论是表达文本还是计算税收,都可以通过ChatGPT接受收入,并输出行动完成。

昨天,老黄发布了英伟达的人型机器人计划,我们的任务就是创建一个AI大模型驱动的机器人,并让它看起来像人。

为什么要让它看起来像人呢?因为人的形态是最常见的。我们生活的世界是为人类设计的,所以我们能做的事情,一个先进的机器人理论上也能做。

我很高兴能和一群领先的人一起工作,让AI大模型能够学会各种技能,并转移到真实的世界里。

我相信,在我们的未来,所有能动的东西都会动,就像在《机器人总动员》《星球大战》和《头号玩家》中看到的那样,这就是我们的目标,把通用人工智能带到开放的世界中。

欢迎大家加入我们的旅程。

现场问答




提问人1:很感谢Jim。我对接下来的事情感到兴奋。我很好奇你怎么看这两条开发路线,用GPT-4学会所有的技能操作游戏中的AI Agent,或者像你说的用GPT-4进行强化学习,教会另一个AI完成任务。你觉得哪种方法更有效,或者可能是它们的结合?Jim:我觉得这是个好问题。

Jim Fan:人脑中系统1是快速反应,而系统2是缓慢的高级推理。你的大脑有慢速部分,比如设定奖励目标,检查问题,也有快速部分进行自动化控制。

使用GPT4的问题在于总要输出文字进行控制,这永远会有一个延迟,所以我认为两条路线会有区别。

提问人2:我的问题是Nvidia的Gear实验室目的是什么?你们只是做研究,还是打算生产一个高级解决方案给机器人公司?

Jim Fan这是一个很好的问题,我认为Gear的定位就是使命驱动。

从根本上说我们还是一个研究实验室,并不是方案提供商,一个主要原因是现在并没有成熟的机器人硬件标准。

世界上没有人真正知道如何开发机器人,这就是为什么对于机器人行业模拟很重要的原因,需要通过模拟来确定有用的机器人是什么样。

就像现在的人形机器人,大家都期待家里有一个可以做所有脏活的人形机器人。

要实现它,需要确保机器人能工作,然后要能大规模部署,还要有AI模型提供智能,这一切都还没有准备好,所以朝着这个愿景进发更像是使命驱动。

提问人3:现在很多人都担心AI对现有职业和教育的冲击,请你分享一下学生和教育体系该做些什么呢?

Jim Fan现在AI的一个好处是学习门槛已经大大降低。任何中学生都可以注册一个账户,然后开始使用AI,开发AI Agent。

他们甚至可以在不花费太多资金的情况下,复制前面提到的Voyager,代码是开源的。

现在的AI门槛已经降低到,高中生不会代码也能参与,所以我希望年轻人能从中学开始就使用AI大模型,做一些API开发。

【前哨科技特训营第四季前瞻】


1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。

2. 每讲承诺为1小时视频内容,实际平均时长为2小时。

3. 每周四晚八点准时直播,会员可无限次观看回放。

4. 新入会员,可以无限次回看之前所有视频课程。

5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手

6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野

7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接

8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。

课程咨询】
请加“创新地图助手”:
微信:innovationmapSM

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
留学故事|谷歌亚裔高管离职创业,29岁提前退休,分享五大成功经验!野心藏不住了!不满CPU统治,英伟达决定彻底重写软件开发栈!黄仁勋:为什么还要用Python?命令行都不需要!GPU开发时代将至【建议收藏】春节期间本地生活优(羊)惠(毛)合集在东京玩够了?来看看这些近郊一日游好去处吧!内含路线规划,建议收藏~商界精英是这样赚钱的!(满满的干货,值得收藏)新公司法生效前,律师必做的工作清单(建议收藏)建议收藏:新《公司法》20个急用、常用知识点外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生波士顿动力机器人背后的开发秘密!CTO独家分享|【建议收藏】全网最全面OPT申请指南!时间线+填表指导+材料汇总!中国留学生屡遭盗抢、凶杀!中使馆支招,建议收藏!干货分享|​​​一张图读懂:战略的前世今生(专业收藏文)延毕危机!某研三医学生竟靠它0代码发3分生信SCI!(推荐收藏)终于,我可以吹自己有10年Vue开发经验了比GTC2024更精彩,黄仁勋现场问答万字纪要(建议收藏)走出國門的中國人:我們該如何與世界為伍澳联邦银行关闭三家分行!数百名员工将被重新安置,数家分行进行翻新提升服务【南歌子 — 夜思】岁末年初“断舍离”英伟达Jim Fan演讲,Andrej Karpathy最新博文,苹果Vision Pro测评香港和华盛顿之间的奇妙穿行世界顶级风投a16z创始人对谈AI与创业,信息量爆炸!(两万字长文,建议收藏)胖东来文化理念手册(建议收藏)hé bàng?hé bèng?​让工作变轻松的9字心法,建议收藏1月开始找工,终于上岸!分享我的电面经验!抑郁的孩子越来越多:这些话,宁愿烂在肚子里,也别再对孩子说了(建议收藏)中年以后,你要停止对自己做这12件事(建议收藏)春天带娃出野,十年自然达人的户外避坑指南(建议收藏富士河口湖之行4月营销关键词!(收藏)建议收藏 | 3步走,拿OFFER留美!浓人,nèng死淡人建议收藏!英国工作签证全攻略AMD如何挑战英伟达,苏姿丰这样回答!|万字长文
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。