Redian新闻
>
ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?

ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?

科技



©PaperWeekly 原创 · 作者 | 李鹏翼

单位 | 天津大学

研究方向 | 演化强化学习



论文题目:
ERL-Re: Efficient Evolutionary Reinforcement Learning with Shared State Representation and Individual Policy Representation

论文链接:

https://arxiv.org/abs/2210.17375

代码链接:

https://github.com/yeshenpy/ERL-Re2

本次介绍的是由天津大学强化学习实验室(http://icdai.org/)提出新的进化强化学习范式 ERL-Re。该范式充分融合了进化算法与强化学习用于策略优化,并实现了显著的性能增益与效果。
进化算法与与强化学习是两类不同的优化方式,擅长解决不同的优化问题,并且都拥有很大,很活跃的社区,本次介绍的 ICLR 2023 的工作就是为了将两个社区连接起来,充分利用两种不同优化算法各自的优势来实现策略搜索与性能提升 。目前代码已经开源。




Background

强化学习 Reinforcement Learning(RL)可以通过环境试错和梯度更新来高效地学习。然而,众所周知,RL 鲁棒性差,探索性差,并且在梯度信号有噪声和信息量较少(sparse)的情况下,难以高效训练。进化算法 Evolutionary Algorithms(EA)是一类黑箱优化方法,主要是维护一个个体的种群,而不是像 RL 只维护一个个体,通过随机扰动的方式来提升个体获得可行解。

与 RL 不同的是,传统 EA 是无梯度优化方法,并具有几个优点:1)强大的探索能力;2)鲁棒性和稳定的收敛;3)采用累计奖励评价个体,不关心单步奖励,因此对奖励信号不敏感。

尽管有这些优点,EA 的一个主要瓶颈是群体的迭代评估而导致的低样本效率。具体来说,EA 需要种群中的每个个体与环境真实交互来获得适应度(性能表现),最终根据种群中不同个体的适应度来进行种群提升。

很多工作都在研究如何将 EA 和 RL 的融合起来,取长补短,优势互补。其中最具有代表性的当属 2018 年提出的演化强化学习框架(ERL),将 Genetic Algorithm(GA)与 DDPG 进行了融合。除了维护强化学习的 actor 和 critic,ERL 额外维护一个的 actor 的种群。为了融合双方的优点,EA 与环境交互产生的多样性的样本会提供给 RL 用于 off policy 优化,这一方面解决了 EA 样本利用率低的问题,另一方面缓解了 RL 探索弱无法寻找到多样数据的问题。

除此之外,优化后的 RL 策略会定期注入到种群中参与种群进化,如果 RL 策略优于种群策略,那么 RL 策略则会促进种群的进化,否则则会被淘汰掉,不影响种群进化。最终 EA 与 RL 优势互补,在 MuJoCo 上实现了对 DDPG 算法的显著提升。(这里的 EA 演化都是直接在策略的参数上进行扰动优化,例如 k 点交叉是交换两个网络中某些层的参数,变异则直接将高斯扰动添加到网络参数上)



Motivation
ERL 工作后,许多基于 ERL 基本框架的相关工作随之产生,例如 CERL,PDERL,CEM-RL 等。由于都遵循基本的 ERL 框架,导致这些算法都面临着两个基本问题:
  • 所有的策略都单独学习自己的状态表征,维护各自的网络,忽略了有效知识的共享。

  • 对于演化算子,参数层面的策略优化不能保证个体的行为语义,容易造成策略灾难性崩溃。




The Concept of Two-Scale State Representation and Policy Representation

为了解决上述问题,我们提出了基于双尺度表征的策略构建Two-scale representation-based policy construction。在此基础上,我们维护和优化 EA 群体和 RL 的策略。具体来说。EA 和 RL Agent 的策略都是由一个共享的非线性状态表征 和一个独立的线性策略表征 组成。Agent 通过结合共享状态表征和策略表征做出决策:
直观地,我们希望共享状态表征 对学习过程中遇到的所有可能的策略都有用。它应该包含环境中与决策有关的一般特征,例如,共同的知识,而不是针对某一个策略。由于共享状态表示 ,Agent 不需要独立地表征状态。因此,更高的效率和更具表现力的状态表征可以通过 EA 群体和 RL Agent 共同得到。由于 的高表达性,每个独立的策略表征可以由一个简单的线性形式构成,这更易于优化与探索。
上图是 ERL(及后续工作)与我们提出的双尺度表征框架 ERL-Re² 的对比图。其中左图中的策略主要由传统的非线性神经网络构成。右图中的圆形表示线性策略表征,六边形则表示非线性共享状态表征,用于知识共享。
算法优化流程整体优化流程如上图所示,具体来说,算法每次在由共享状态表征 构建的线性策略空间 中进行策略搜索,对线性策略进行优化。优化后我们对共享状态表征进行优化,优化的方向为对于所有个体(包括 EA 和 RL)都有益的方向,从而达到有效的知识共享,构建对于所有个体都有利的策略空间。如此循环迭代实现知识的高效传递与策略的快速优化。下面我们介绍如何进行共享表征的优化,以及如何在线性空间如何更加高效地演化。



Optimizing the Shared State Representation for A Superior Policy Space
为了构建所有个体都有益的状态表征从而实现高效地知识共享,我们提出基于所有 EA 和 RL 策略的价值函数最大化来学习共享状态表征。对于 EA 策略,我们根据 EA 群体 ℙ 中的线性策略表示 ,学习策略拓展值函数(PeVFA,通过将策略表征作为输入,实现一个价值函数估计多个不同策略 value 的目的)。对于 RL 策略,我们使用原始 RL 算法的值函数提供更新方向。两个值函数都是通过 TD error 进行优化的,损失如下:
EA 中的个体和 RL 个体都能分别从 PeVFA 和 RL critic 获得各自的优化方向. 而我们想构建的共享状态表征应该有助于所有个体的探索与优化,因此共享表征的更新方向应该考虑到 EA 和 RL,因此我们定义了如下损失:
通过优化上述损失,共享状态表征能够向着一个统一的优化方向进行优化,从而构建一个有助于所有个体的线性策略空间,使得 EA 和 RL 能够更加高效地探索与提升。



Optimizing the Policy Representation by Evolution and Reinforcement

对于种群的进化,我们首先需要得到适配度(fitness),所产生的样本开销是 EA 的一个主要瓶颈,特别是当种群很大时。为此,我们提出了一个基于 PeVFA 的新的适应度函数。对于每个 Agent ,我们让 Agent与环境交互𝐻步,随后使用 PeVFA 进行估值来节省样本开销。fitness 被定义如下:

对于遗传进化的过程,传统的交叉变异都是直接在整个策略的参数空间进行扰动,由于策略往往是由非线性的神经网络构建的。单独的改变神经网络的某些参数可能会造成策略行为的坍塌与崩溃。为了解决这个问题,我们提出了新的 behavior-level 交叉和变异,允许在指定的行动维度上施加扰动,同时对其他动作不产生任何干扰。

具体来说,由于共享状态表征的构建,演化发生在线性策略表征空间,线性策略表征的每个维度对应决策的一个动作,因此我们可以直接交换表征的某一维度的参数,而实现两个策略的某个动作的交叉,而不对其他动作产生扰动(behavior-level crossover),同样扰动也可以被单独加在表征的某个特定维度上,不对其他动作产生扰动(behavior-level mutation)。behavior-level 交叉变异的示意图如下图所示。

最后整个实验的伪代码:




Experiments
本文实验主要在 MUJOCO 的 6 个常用的 task 上验证了方法的有效性,基本上都有大幅度的性能增益,达到了在这个 benchmark 上的 ERL 方向的新 SOTA。除此之外,本文也尝试了一些其他环境和算法,大家可以到原文中查看更多的细节。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊WWW 2023|快手:通过强化学习提升用户留存谷歌 DeepMind 打破十年算法封印,AlphaDev 惊世登场,颠覆人类算法格局!ICLR 2023 Oral | ToMe:无需训练的Token融合模型加速算法人生的苦役(小说)7MABIM:多智能体强化学习算法的“炼丹炉”第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%ICLR 2023 | 负责任的人工智能,守护机器学习的进阶思考直播预约:消息推送怎样让应用流量爆表,破局用户增长瓶颈?房产投资的KISS原则 2023当警察开始“整活”,创作瓶颈?不存在!ICLR 2023杰出论文奖得主分享:用于密集预测任务的通用小样本学习器ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架AIoT情报|国内首例基于量子的网络优化算法验证成功;富士康退出印度半导体计划;ASML停止大规模招聘AI帮助人类打破十年算法瓶颈:谷歌 DeepMind 发现更快排序算法,已集成到C++库美国,如何融入?ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类第二篇:强化学习中的7个基础概念回国心切 - 看望老妈R1在即、如何高效突破Essay瓶颈?|文书突击Mini Workshop无题国际要闻简报,轻松了解天下事(04谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务Dr Sun 2023 暑假基础物理化学 AP 物理化学 奥林匹克化学打破十年算法封印,DeepMind发现更快的排序算法蛋白设计新时代!Science: 开发出基于强化学习的蛋白结构设计方法国际要闻简报,轻松了解天下事(042022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一博客图片ICLR 2023 | 大模型上下文学习的无限扩展方法:kNN Prompting第十二篇:强化学习SARSA算法一位悲命的政治辅导员我将开始更新 强化学习AI设计蛋白质新方法登Science!利用强化学习,直接根据预想优化结构11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023国际要闻简报,轻松了解天下事(04ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。