Redian新闻
>
DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕

DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕

公众号新闻



  新智元报道  

编辑:桃子
【新智元导读】基础模型之上的统一智能体,王者中的王者。

AI智能体的研究,已经卷起来了。

一直以来,基础模型不断涌现,还未有过统一的智能体。

来自Google DeepMind研究团队,设计了一个框架,使用语言作为核心推理工具,探索让智能体解决一系列基本的RL挑战。

比如,高效探索、重复使用经验数据、从观察中学习。

要知道,这些挑战从传统意义上来说,都需要专门的、垂直设计的算法。

论文地址:https://arxiv.org/pdf/2307.09668.pdf

研究人员在一个稀疏奖励模拟智能体操作环境中进行了测试。结果显示,AI智能体在探索效率,重用数据等能力方面,得到了很大提升。

那么,DeepMind设计了一个怎样的框架?

AI智能体:语言做核心


一般来说,智能体只有与环境相互作用后,才能从中学习,但这个过程需要不断进行实验和试错。

而现在,利用基础模型已有的知识,可以极大地推进这个过程。

对此,研究人员设计了一个框架,将语言置于RL智能体的核心,特别是在从头学习的背景下。

结果表明,该框架利用LLM和VLM,可以解决RL环境中的一系列基本问题,比如:

1) 有效地探索稀疏奖励环境
2) 重新使用收集到的数据启动新任务的顺序学习

3) 安排学习技能来解决新任务

以语言为中心的智能体框架

这项工作的目标是,研究使用基础模型,预训练的大量图像和文本数据集,以设计一个更通用和统一的RL机器人智能体。

为此,智能体首先需要将视觉输入映射到文本描述。

其次,需要提示一个带有文本描述和任务描述的LLM来为智能体提供语言指令。最后,智能体需要将LLM的输出转化为行动。

具体来讲,需要经过以下四个过程:

- 使用VLM的连接视觉和语言

为了以语言形式描述从RGB摄像头获取的视觉输入,研究人员使用CLIP这一大型对比视觉语言模型。

CLIP计算观察结果与文字描述之间相似性的示例

- 语言推理

语言模型以语言形式的提示作为输入,通过自动回归计算下一个token的概率分布,并从该分布中采样,产生语言作为输出。

- 把指令根植行动

LLMs提供的语言目标,然后根植到使用语言条件化策略网络的行动中。

- 收集和推断学习范式

智能体通过收集和推断范式的启发,与环境的互动中学习。

实验结果


通过使用语言作为代理的核心,为解决RL中的一系列基本挑战提供了一个统一的框架。

接下来,就这这样智能体的能力如何,再此,研究人员重点从探索、重用过去的经验数据、安排和重用技能以及从观察中学习进行了描述。

探索——通过语言生成课程

这里,团队演示了一个RL智能体如何利用LLMs的优势,利用课程的文本子目标,产生没有任何过去的环境互动。

如下,学习曲线清楚地说明了,最新方法是如何比所有任务的基线更有效率。

值得注意的是,智能体的学习曲线在Triple Stack任务中迅速增长,而基线智能体仍然必须得到一个单一的奖励,因为任务的稀疏性是106。

左图:收集和推断管线;中右图:框架的学习曲线,以及「堆栈红蓝」和「三重堆栈」任务的基准学习曲线

随着任务变得越来越稀疏,LLM提出的子目标数量也增加了。

这使得增长变得越来越缓慢,这表明最新框架可以扩展到更难的任务,并使它们易于处理。

此外,与之前需要精心设计的内在奖励,或其他探索奖励的方法不同,最新框架可以直接利用LLM和VLM的先验知识,生成一个具有语义意义的探索课程。

从而为即使在奖励稀少的环境中,也能以自我激励的方式进行探索。

通过重用离线数据来学习任务

研究显示,研究人员绘制了智能体在环境中,需要采取多少个相互作用步骤,才能在每个新任务上达到50%的成功率,如图所示。

实验清楚地说明了,最新框架在重用为以前的任务收集的数据方面的有效性,提高了新任务的学习效率。

结果表明,谷歌框架可用于释放机器人智能体的终身学习能力:连续学习的任务越多,学习下一个任务的速度就越快。

这对将智能体部署到开放式环境(尤其是现实世界)中尤其有利。

通过利用智能体在整个生命周期中遇到的数据,智能体学习新任务的速度应该远远快于纯粹的从头开始学习。

从观察中学习: 从视频到技能的映射

从观察外部智能体中学习是一般智能体的理想能力,但这通常需要特别设计的算法和模型。

研究人员设计的智能体,可以以专家执行任务的视频为条件,从观察中一次性学习。

测试中,智能体会拍摄一段人类用手堆放物品的视频。

尽管只对来自MuJoCo模拟的图像进行了微调,VLM还是能够准确地预测,描绘机器人或人类手臂的真实世界图像上的文本-图像对应关系。

研究的初步结果表明,利用基础模型可以让通用的RL算法能够解决各种问题,提高效率和通用性。

通过利用这些模型中包含的先验知识,可以设计出更好的智能体,能够直接在现实世界中解决具有挑战性的任务。

参考资料:

https://arxiv.org/pdf/2307.09668.pdf



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
耗时2年,Meta联手CMU打造最强「通用机器人智能体」!上茶擦碗多面手,轻松泛化100多种未知任务谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果Inflection创始人:从DeepMind到Pi,AI智能体如何迎来寒武纪大爆发Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型10行代码媲美RLHF!谷歌DeepMind用游戏数据让大模型更像人类终身学习者,才是这个不确定时代里的大赢家|牛津博士后招募瑶望活得很奔放又很疲惫的女人创业者要保持学习,用终身学习拥抱自主产业链时代谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力|甲子光年语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路DeepMind推出AI图像识别工具;华为Mate 60 Pro接入盘古大模型;传谷歌Gemini算力达GPT-4五倍Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果|GGView微软:AI 芯片不够,数据中心恐中断;马斯克:推特月活 5.4 亿创新高;DeepMind 推全新「机器人模型」 | 极客早知道黄奇帆:人工智能,赋能智慧城市的主战场一次报名,终身学习,仅限 6月30日 活动有效阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型机器人可“自我学习”!谷歌DeepMind发布首个机器人算法模型,“潘多拉魔盒”打开了?OpenAI新作,直指DeepMind格局小了!大模型复杂推理应逐步验证机器人ChatGPT来了!大模型进现实世界,DeepMind重量级突破!机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破夏影深深宁高宁:没有终身职业,只有终身学习7 Papers | DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU是不是也算文学城之最了?[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)Linux 终身学习资格活动,来喽来喽!碾压GPT-4!谷歌DeepMind CEO自曝:下一代大模型将与AlphaGo合体既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型英语
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。