Redian新闻
>
用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手

用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手

公众号新闻
白交 发自 凹非寺
量子位 | 公众号 QbitAI

训练机器人,AI比人类更拿手!

英伟达最新AI AgentEureka ,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复杂任务。

比如,快速转个笔,打开抽屉和柜子、抛球和接球。

尤其是转笔这个技能,要知道靠人类逐帧制作动画,也是非常困难的。

最终,Eureka在超过80%的任务中都超越人类专家,让机器人平均性能提升到50%以上。

这一研究吸引了数十万网友关注,有人表示:直接快进到它弹钢琴那天,直接为大众所用。


英伟达科学家,也是此次共同作者之一Jim Fan评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。

目前该项目完全开源。

GPT-4生成奖励策略

在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1等),但在复杂任务控制方面有所欠缺。

而Eureka的关键所在,就是通过上下文来实现了人类水平的奖励算法设计

简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。

研究人员提出了一种混合梯度架构,外循环运行 GPT-4 来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。

主要有三个关键组成部分:

  • 模拟器环境代码作为上下文启动初始“种子”奖励函数。

  • GPU上的大规模并行强化学习,可以快速评估大量候选奖励。

  • 奖励反射reward reflection,得益于GPT-4评估和修改能力,一步步迭代。

首先,无需任何特定提示工程和奖励模版。使用原始Isaac Gym (一种GPU加速的物理模拟器)环境代码作为上下文,生成初始奖励函数。

这种无梯度的情境学习方式,可以根据各种形式的人类输入,生成性能更强、符合开发人员愿景的奖励函数。

其次,Eureka在每个进化步骤中都会生成很多候选函数,然后利用强化学习训练来进行快速评估。

以往这种过程需要几天甚至几周来完成,但由Isaac Gym可将模拟时间提高1000倍,强化学习内循环能在几分钟完成。

最后,依赖于奖励反射,Eureka还支持一种新形式的上下文 RLHF。它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。

最终,在29种不同的开源RL环境中,83%基准测试中Eureka都优于人类,并实现了52%改进。

这些环境包括10种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。

让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka表现更好,且与人类奖励的相关性越低。

甚至在少数情况下,AI的策略与人类的策略呈现负相关。

这就有点像当年 AlphaGo的下棋策略,人类看不懂学不会,但十分有效。

英伟达出品

这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。

可以看到的是,近半数研究人员都是华人。

一作是Yecheng Jason Ma,目前是宾大GRASP 实验室的四年级博士生,研究方向是强化学习和机器人学习。

英伟达科学家Jim Fan此次也是通讯作者之一。

咳咳,不过至于网友提到的弹钢琴,Jim Fan自己曾分享过:只需几个简单按钮,AI就能实时即兴生成演奏音乐。

不知道,未来会不会这样的呢?(不过,这研究已经是2018年的了)

论文链接:
https://arxiv.org/abs/2310.12931

GitHub链接:
https://github.com/eureka-research/Eureka

参考链接:
https://venturebeat.com/ai/new-nvidia-ai-agent-powered-by-gpt-4-can-train-robots/

https://twitter.com/DrJimFan/status/1715397393842401440

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源长篇小说《如絮》 第一百八十五章 旧金山-2007年 向日葵机器人迎来ImageNet时刻!谷歌等新作Open X-Embodiment:机器人学习数据集和 RT-X 模型英伟达特拉维夫AI峰会取消!老黄内部邮件曝出:英伟达员工也被绑架【回国记录】我的初恋英伟达最强芯片性能公布,比H100高17%英伟达的美国对手们已经开始拿中国攻击英伟达了刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报语言、机器人破壁,MIT等用GPT-4自动生成模拟任务,并迁移到真实世界小鹏人形机器人首秀,明年或现身门店卖车;波士顿动力使用ChatGPT训练出导游机器狗;联想AI PC明年9月上市丨AI周报撵着白云走诱惑新能源汽车,智能房车,宠物机器人,扫地机器人…各种新鲜的高科技智造,9月15日,澳中博览会让你大开眼界!看看历史上辱华漫画----就知道为何“僵尸”受罚了。。。。英伟达最强芯片发布;华为美团牵手鸿蒙应用合作;小鹏汽车与滴滴完成首次资产交割|AIoT情报用GPT-4训练机器人!英伟达最新工作Eureka:转笔转到离谱!宝尊电商总裁于钧瑞:市场越复杂,我们的机会越多Altman首次自曝GPT-5加急训练中!暗示比GPT-4更复杂,无法预测真实能力NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练工信部发《人形机器人创新发展指导意见》;微软撤回ChatGPT参数200亿论文;GPT-4图灵测试成功率41%丨AIGC大事日报真实再现生物脊柱功能,老鼠机器人也能像杰瑞一样灵活,Science Robotics 发布老鼠机器人最新研究成果大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤英伟达领投机器人公司;传微软即将发布 AI 芯片;日本对华水产出口大跌 65% | 极客早知道ChatGPT Plus推出邀请制!可以让朋友免费用GPT-4了,最长90天航空服务越来越差!遭投诉最多的是这家公司MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务英伟达 4090 显卡被炒至 3 万元;特斯拉发 3 季财报,利润大降 44%;亚马逊仓库测试双足机器人GPT-5 秘密训练曝光!ChatGPT 将再次迎来重磅升级?|Hunt Good 周报用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上机器人瓦力来了!迪士尼亮出新机器人,用RL学习走路,还能进行社交互动预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景英伟达最大的风险,在很少人关注的角落里!北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务爱立信被曝裁掉整个广州研发团队:赔偿N+3加年终奖;英伟达将为中国定制三款芯片;马斯克旗下首款聊天机器人将开源 | AI一周资讯
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。