Redian新闻
>
强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力

强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】强化学习也要进入预训练时代了!


基础模型(foundation models)在监督和自监督学习问题上展现出强大的领域适应性(adaption)和可扩展性(scalability),但强化学习领域仍然没有基础模型。

最近DeepMind的Adaptive Agents团队提出了一种人-时间尺度(human-timescale)自适应智能体AdA(Adaptive Agent),证明经过大规模训练后的RL智能体也能具有通用上下文的学习能力,该算法可以像人一样快速适应开放式的具身3D问题。

论文链接:https://arxiv.org/abs/2301.07608

在一个巨大的动态空间环境中,自适应智能体展现出即时的假设驱动的探索,能够有效地利用获得的知识,而且可以接受第一人称演示作为提示(prompt)。

研究人员认为其适应性主要来源于三个因素

1. 在一个巨大的、平滑的和多样化的任务分布中进行元强化学习;
2. 一个参数化的、基于注意力的大规模记忆结构的策略;
3. 一个有效的自动curriculum,在代理能力的前沿对任务进行优先排序。

实验部分展示了与网络规模、记忆长度和训练任务分布的丰富程度有关的特征性扩展规律;研究人员认为该结果为日益普遍和适应性强的RL智能体奠定了基础,智能体在开放领域环境仍然表现良好。

RL基础模型

人类往往能够在几分钟内适应一个新的环境,这是体现人类智能的一个关键特性,同时也是通往通用人工智能道路上的一个重要节点。

不管是何种层次的有界理性(bounded retionality),都存在一个任务空间,在这个空间中,智能体无法以zero-shot的方式泛化其策略;但如果智能体能够非常快速地从反馈中学习,那么就可能取得性能提升。

为了在现实世界中以及在与人类的互动中发挥作用,人工智能体应该能够在「几次互动」中进行快速且灵活的适应,并且应该在可用数据量提升时继续适应。

具体来说,研究人员希望训练出的智能体在测试时,只需要在一个未见过的环境中给定几个episode的数据,就能完成一个需要试错探索的任务,并能随后将其解决方案完善为最佳的行为。

元强化学习(Meta-RL)已经被证明对快速的语境适应是有效的,然而,不过元RL在奖励稀疏、任务空间巨大且多样化的环境中作用有限。

这项工作为训练RL基础模型铺平了道路;也就是说,一个已经在庞大的任务分布上进行了预训练的智能体,在测试时,它能以few-shot的方式适应广泛的下游任务。

自适应智能体(AdA)能够在具有稀疏奖励的巨大开放式任务空间中进行人类时间尺度适应,不需要任何提示、微调或访问离线数据集。

相反,AdA表现出假设驱动的探索行为,利用即时获得的信息来完善其策略,能够有效地获取知识,在第一人称像素观察的部分可观察的三维环境中,在几分钟内适应奖励稀疏的任务。


自适应智能体Ada
 
研究人员提出了一种基于记忆的元RL通用和可扩展的方法以生成自适应智能体(AdA)
 
首先在XLand 2.0中训练和测试AdA,该环境支持按程序生成不同的三维世界和多人游戏,具有丰富的动态性,需要智能体拥有足够的适应性。
 
 
该训练方法结合了三个关键部分:1)指导智能体学习的课程(curriculum);2)基于模型的RL算法来训练具有大规模注意力记忆的代理;以及,3)蒸馏以实现扩展。
 
1. 开放端任务空间:XLand 2.0
 
XLand 2.0相比XLand 1.0扩展了生产规则的系统,其中每条规则都表达了一个额外的环境动态,从而具有更丰富、更多样化的不同过渡功能。
 
XLand 2.0是一个巨大的、平滑的、多样化的适应问题的任务空间,不同的任务有不同的适应性要求,如实验、工具用法或分工等。
 
例如,在一个需要实验的任务中,玩家可能需要识别哪些物体可以有用地结合,避免死胡同,然后优化他们结合物体的方式,就像一个玩具版的实验化学。
 
 
每个任务可以进行一次或多次试验,试验之间的环境会被重置,但智能体记忆不会被重置。
 
上图中突出显示的是两个示例任务,即「Wrong Pair Disappears」和「Pass Over Wall Repeatedly」,展示了目标、初始物体、生产规则以及智能体需要如何与它们互动以解决任务。
 

2. 元强化学习

 
根据黑箱元RL问题的设置,研究人员将任务空间定义为一组部分可观察的马尔科夫决策过程(POMDPs)。
 
对于一个给定的任务,试验的定义为从初始状态到终端状态的任意转换序列。
 
在XLand中,当且仅当某个时间段𝑇∈[10s, 40s]已经过去时,任务才会终止,每个任务都有具体规定。环境以每秒30帧的速度变化,智能体每4帧观察一次,因此任务长度以时间为单位,范围为[75, 300]。
 
一个episode由一个给定任务的试验序列组成。在试验边界,任务被重置到一个初始状态。
 
在领域内,初始状态是确定的,除了智能体的旋转,它是统一随机抽样的。
 
在黑箱元RL训练中,智能体利用与广泛分布的任务互动的经验来更新其神经网络的参数,该网络在给定的状态观察中智能体的行动政策分布提供参数。
 
如果一个智能体拥有动态的内部状态(记忆),那么元RL训练通过利用重复试验的结构,赋予该记忆以隐性的在线学习算法。
 
在测试时,这种在线学习算法使智能体能够适应其策略,而无需进一步更新神经网络权重,也就是说,智能体的记忆不是在试验边界被重置,而是在episode边界被重置。
 
3. 自动课程学习(Auto-curriculum learning)
 
鉴于预采样任务池的广度和多样性,智能体很难用均匀采样进行有效地学习:大多数随机采样的任务可能会太难(或太容易),无法对智能体的学习进度有所帮助。
 
相反,研究人员使用自动化的方法在智能体能力的前沿选择相对「有趣 」(interesting)的任务,类似于人类认知发展中的「近侧发展区间」(zone of proximal development)。
 
具体方法为对现有技术中的no-op filtering和prioritised level replay(PLR)进行扩展,能够极大提升智能体的性能和采样效率,最终成为了一个新兴的课程,能够随着时间的推移选择越来越复杂的任务。
 

4. RL智能体

 
学习算法
 
RL算法选择Mueslie,输入为一个历史相关的编码(history-dependent encoding),输出为RNN或Transformer,AdA学习一个序列模型(LSTM)对后续多步预测价值、行动分布和奖励。
 
 
记忆架构
 
在每个时间步,将像素观察、目标、手、试验和时间信息、生成规则、之前的行动和奖励嵌入化并合并为一个向量。
 
这些观察嵌入顺序输入到Transformer-XL中,其输出嵌入输入到MLP价值头、MLP策略头和Muesli LSTM模型步、
 
 
不止few-shot
 
通过对Transformer-XL架构做了一个简单的修改,就可以在不增加计算成本的情况下增加有效的记忆长度。
 
由于在视觉RL环境中的观察往往与时间高度相关,所以研究人员提出对序列进行子采样。为了确保在子采样点之间的观察仍然可以被关注到,使用一个RNN对整个轨迹进行编码,可以总结每一步的最近历史。
 
结果表明,额外的RNN编码并不影响模型中Transformer-XL变体的性能,但能够保持更远的记忆。
 

5. 蒸馏

 
对于训练的前40亿步,研究人员使用一个额外的蒸馏损失用预训练教师模型的策略来指导AdA的学习,整个过程也称之为kickstarting
 
教师模型通过强化学习从头开始进行预训练,使用与AdA相同的训练程序和超参数,但教师模型没有初始蒸馏,并且具有较小的模型规模:教师模型只有2300万Transformer参数,而多智能体AdA拥有2.65亿参数。
 
在蒸馏过程中,AdA根据自己的策略行动,教师模型根据AdA观察到的轨迹提供目标Logits;使用蒸馏可以摊销昂贵的初始训练期,并使智能体能够消除在训练的初始阶段学到的有害表征。
 
然后将蒸馏损失与Muesli结合起来,最小化模型预测的所有行动概率与教师策略在相应时间段预测的行动概率之间的KL-散度。
 
 
研究人员还发现了一个有用的小操作,可以在蒸馏期间添加一个额外的L2正则化项。


参考资料:
https://arxiv.org/abs/2301.07608




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
梅花创投吴世春:新环境下,创业者的进化那些被照片留住的早晨DeepMind携AlphaCode登Science封面,写代码能力不输程序员黄金十年 VS 新环境三年,VC/PE 上市企业渗透率有哪些变化?黄金十年 VS 新环境三年,中国上市公司的选择变了吗?超参数科技招聘:强化学习研究员、深度学习工程师、后台开发工程师等2022傅雷翻译出版奖获奖者揭晓 Le palmarès du Prix Fu Lei 2022 dévoilé美柏医健邀请您参加“2023EBC-新环境下的商务拓展-BD价值放大”论坛DeepMind 新发布的聊天机器人很好,但还不够好胡鑫宇录音笔已送深圳恢复数据,官方人士:没人敢造假!疑似胡鑫宇生前笔记披露:新环境真的难适应……为什么癌细胞会对化疗产生抵抗性?Science子刊:癌细胞对化疗的反应能力具有先天的随机性光源资本创始人郑烜乐:新环境,新机遇,拥抱产业投融资时代|WISE2022新经济之王大会清新环境:产业资本双轮驱动 业务版图持续扩大还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」微软团队发布第一个基于AI的天气和气候基础模型 ClimaXI2A、MBMF、MVE、DMVE…你都掌握了吗?一文总结强化学习必备经典模型(二)泡泡玛特王宁:应对新环境,只吃 7 分饱丨新新访谈游吉萨金字塔,猜古埃及之谜AI写剧本炸场戏剧节!DeepMind出品,马斯克看了直夸,网友看到接口悟了天赋“易昺(bǐng)”,创造历史!学完这个教程,小白也能构建Transformer模型,DeepMind科学家推荐"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述最新环境报告出炉 加拿大哪个城市空气质量最差?谷歌大模型团队并入DeepMind!誓要赶上ChatGPT进度核聚变反应能量增益首次实现!人类有望进入更高层次文明杏仁巧克力蛋糕 (Queen Mothers Cake)马斯克点赞!DeepMind神AI编剧,一句话生成几万字剧本详解iPhone 14 Pro的新环境光传感器早财经丨疑似胡鑫宇生前笔记披露:新环境难适应 ;《狂飙》6位演员集体道歉;马云一个月两次见泰国首富延安整风是新文化普遍启蒙实践疑似胡鑫宇生前笔记披露:"新环境真的难适应"破镜重圆冬天啦,肠胃不适别硬抗!能熬出厚厚米油的“素黄金”~清香扑鼻,堪比人参汤,全国也就这里有!大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。