Redian新闻
>
用GPT-4训练机器人!英伟达最新工作Eureka:转笔转到离谱!

用GPT-4训练机器人!英伟达最新工作Eureka:转笔转到离谱!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉和Transformer】交流群

白交 发自 凹非寺  转载自:量子位(QbitAI)

在CVer微信公众号后台回复:Eureka,可以下载本论文pdf和代码,快学起来!

训练机器人,AI比人类更拿手!

英伟达最新AI AgentEureka ,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复杂任务。

比如,快速转个笔,打开抽屉和柜子、抛球和接球。


尤其是转笔这个技能,要知道靠人类逐帧制作动画,也是非常困难的。

最终,Eureka在超过80%的任务中都超越人类专家,让机器人平均性能提升到50%以上。

这一研究吸引了数十万网友关注,有人表示:直接快进到它弹钢琴那天,直接为大众所用。


英伟达科学家,也是此次共同作者之一Jim Fan评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。

目前该项目完全开源。

GPT-4生成奖励策略

在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1等),但在复杂任务控制方面有所欠缺。

而Eureka的关键所在,就是通过上下文来实现了人类水平的奖励算法设计

简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。

研究人员提出了一种混合梯度架构,外循环运行 GPT-4 来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。

主要有三个关键组成部分:

  • 模拟器环境代码作为上下文启动初始“种子”奖励函数。

  • GPU上的大规模并行强化学习,可以快速评估大量候选奖励。

  • 奖励反射reward reflection,得益于GPT-4评估和修改能力,一步步迭代。

首先,无需任何特定提示工程和奖励模版。使用原始Isaac Gym (一种GPU加速的物理模拟器)环境代码作为上下文,生成初始奖励函数。

这种无梯度的情境学习方式,可以根据各种形式的人类输入,生成性能更强、符合开发人员愿景的奖励函数。

其次,Eureka在每个进化步骤中都会生成很多候选函数,然后利用强化学习训练来进行快速评估。

以往这种过程需要几天甚至几周来完成,但由Isaac Gym可将模拟时间提高1000倍,强化学习内循环能在几分钟完成。

最后,依赖于奖励反射,Eureka还支持一种新形式的上下文 RLHF。它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。

最终,在29种不同的开源RL环境中,83%基准测试中Eureka都优于人类,并实现了52%改进。

这些环境包括10种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。

让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka表现更好,且与人类奖励的相关性越低。

甚至在少数情况下,AI的策略与人类的策略呈现负相关。

这就有点像当年 AlphaGo的下棋策略,人类看不懂学不会,但十分有效。

英伟达出品

这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。

可以看到的是,近半数研究人员都是华人。

一作是Yecheng Jason Ma,目前是宾大GRASP 实验室的四年级博士生,研究方向是强化学习和机器人学习。

英伟达科学家Jim Fan此次也是通讯作者之一。

咳咳,不过至于网友提到的弹钢琴,Jim Fan自己曾分享过:只需几个简单按钮,AI就能实时即兴生成演奏音乐。

不知道,未来会不会这样的呢?(不过,这研究已经是2018年的了)

论文链接:
https://arxiv.org/abs/2310.12931

GitHub链接:
https://github.com/eureka-research/Eureka

参考链接:
https://venturebeat.com/ai/new-nvidia-ai-agent-powered-by-gpt-4-can-train-robots/

https://twitter.com/DrJimFan/status/1715397393842401440

在CVer微信公众号后台回复:Eureka,可以下载本论文pdf和代码,快学起来!

点击进入—>【计算机视觉和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI估值860亿美元股票出售重启;ChatGPT科研造假引Nature关注;英伟达用AIGC加速药研丨AIGC大事日报亿万身家、全球第8!香港这群人有钱到离谱!英伟达领投机器人公司;传微软即将发布 AI 芯片;日本对华水产出口大跌 65% | 极客早知道GPT-4教会机器手转笔、玩魔方!RL社区震惊:LLM设计奖励竟能超越人类?Eureka!NVIDIA 研究突破为机器人学习注入新动力英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路有了GPT-4之后,机器人把转笔、盘核桃都学会了英伟达最强芯片发布;华为美团牵手鸿蒙应用合作;小鹏汽车与滴滴完成首次资产交割|AIoT情报江滩行吟预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景强到离谱!疯传全网的AI资源搞到了,请低调使用!英伟达最强芯片性能公布,比H100高17%语言、机器人破壁,MIT等用GPT-4自动生成模拟任务,并迁移到真实世界英伟达最大的风险,在很少人关注的角落里!貞字源考我和老公青梅竹马,直到他的微信多了一笔转账,暴露了!九剑一魂 - 第25回 玉石砥砺 初试锋芒(三)用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手真实再现生物脊柱功能,老鼠机器人也能像杰瑞一样灵活,Science Robotics 发布老鼠机器人最新研究成果英伟达特拉维夫AI峰会取消!老黄内部邮件曝出:英伟达员工也被绑架小鹏人形机器人首秀,明年或现身门店卖车;波士顿动力使用ChatGPT训练出导游机器狗;联想AI PC明年9月上市丨AI周报【尘封档案】系列之185:“华东八室”之513特务案(二)AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练英伟达的美国对手们已经开始拿中国攻击英伟达了MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务英伟达 4090 显卡被炒至 3 万元;特斯拉发 3 季财报,利润大降 44%;亚马逊仓库测试双足机器人用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上NeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路希望和康复之路爱立信被曝裁掉整个广州研发团队:赔偿N+3加年终奖;英伟达将为中国定制三款芯片;马斯克旗下首款聊天机器人将开源 | AI一周资讯ChatGPT Plus推出邀请制!可以让朋友免费用GPT-4了,最长90天
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。