Redian新闻
>
AAAI 2024 | SO2:从Q值估计的角度重新审视Offline to Online RL

AAAI 2024 | SO2:从Q值估计的角度重新审视Offline to Online RL

公众号新闻



TL;DR(要点速递)

本文将介绍一种极其简洁的 Offline-to-Online (O2O) RL 算法 SO2,只需两个简单 trick:使用加入噪声的 action 来更新 Q 值+增大 Q 值更新频率,就可使 offline-to-online RL 领域的算法性能大幅度提升。

开源代码地址:

https://github.com/opendilab/SO2

具体来说,出色的实验效果如下:

1. Halfcheetah 一骑绝尘仅用 170K Env Steps 就可以在 Halfcheetah 环境上达到 1.3w+ 的累积回报,而 300K 则可以超过 1.6w+。强化学习社区尝试训练过 MuJoCo 环境的同学肯定深有感受:online RL 的最强算法 SAC, 一般需要 3M Env Steps 才能到 1.2w 的累积回报,之后无论再训练多长时间,1.6w 水准的 Halfcheetah 几乎都是遥不可及。


▲ 图1. Halfcheetah 环境训练曲线对比图

2. MuJoCo 一招鲜吃遍天:这种训练方法在所有 MuJoCo 环境和数据集上都大幅领先其他 offline-to-online RL baseline 方法。

▲ 图2. MuJoCo 不同环境和数据集上各类 O2O 算法的表现


引言

离线强化学习(offline reinforcement learning/batch reinforcement learning)可谓是近年来最火热也最重要的强化学习子领域,在各类决策任务中都展现出了惊艳的效果,相关的上下游任务也都发展得十分迅速。其中,基于离线强化学习已经训练收敛的策略,再继续进行后续的在线学习,这种训练方式就是本文研究的核心目标——offline-to-online reinforcement learning。


尽管目前这个方向已经出现了一些优秀的研究成果,但这些工作主要着眼于引入其他在线学习方法中的复杂设计,尝试去解决 O2O 训练中状态-动作分布飘移(shift)的问题。这些方法往往显著加大算法复杂度,同时又面临保障持续训练稳定性的挑战。

▲ 图3. SO2 算法设计动机示意图。通过两个关键设计,SO2 显著缓解了值函数估计问题

为了提供一种简单统一的方法来释放离线到在线强化学习的潜力,来自悉尼大学,香港中文大学,北京大学,以及上海人工智能实验室(OpenDILab 团队)等机构的研究者们从 Q 值估计的全新视角出发,结合现在广泛使用的强化学习技术,实现了统一简单高效的离线到在线的强化学习。此外,还提供了关于动作值函数估计偏差分析的相关方法,以及相应的评测分析,深入理解 O2O 领域的挑战与机遇。



论文题目:
A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning

论文链接:

https://arxiv.org/abs/2312.07488

开源代码链接:

https://github.com/opendilab/SO2


背景与贡献

尽管离线强化学习的算法研究和应用落地取得了诸多进展,但离线到在线强化学习(Offline-to-Online RL)仍然面临一系列困难和挑战,甚至在训练过程中常常出现完全崩溃的情况。
具体来说,离线到在线强化学习的核心是在从离线预训练到在线学习的过程中维持有效的策略和决策。在 offline RL 中,由于缺乏在线交互,Q 值(一种衡量在特定状态下执行某动作的预期回报的指标)的估计容易产生偏差,而同时 online RL 需要准确的 Q 值来指导策略的优化和决策。因此,如何在离线到在线的训练转换中正确处理 Q 值估计,就成为 O2O RL 的关键问题。
本文基于一个之前常常被忽视的视角,针对 O2O RL 中的 Q 值估计偏差问题进行深入研究和解决,并提出了一种新方法。具体来说:
1. 量化分析了离线强化学习训练过程中 Q 值估计可能产生的偏差及其对在线强化学习阶段的影响;

2. 提出了一种新算法 SO2,通过引入特定的技术手段减轻上文所述的偏差,提高 Q 值估计的准确性。这些技术包括对目标动作的扰动处理,以及提高 Q 值更新的频率,以加速学习过程并减少由离线训练带来的偏差。


这项工作的重要性在于,它不仅提供了一种提高 O2O RL 性能的具体技术路径,也为理解和解决 O2O RL 中的关键问题提供了新视角——Q 值估计的准确性。通过这项研究,可以更好地理解在离线到在线转换过程中如何处理和优化 RL 算法,从而推动整个强化学习领域的发展。


Q 值估计误差问题的分析与评估

和离线强化学习与在线强化学习领域类似,O2O RL 同样面临严重的 Q 值估计偏差问题,同时,由于离线数据集和在线样本之间可能存在更严重的数据分布漂移,该问题的复杂性更为棘手。因此,本文将针对离线到在线强化学习(O2O RL)中的 Q 值估计问题进行系统性的分析和评估。

▲ 图4. 各类强化学习方法性能对比。其中 Online 方法已特殊标出

首先,本小节会对 Q 值估计误差问题进行详细介绍。上面所示的图 4 对比了多种标准 online RL 方法和使用在线微调的 offline RL 方法的性能。以标准 online RL 方法的结果为基线,可以观察到这些直接使用在线微调的 offline RL 方法——包括 TD3-BC ,CQL,EDAC 和它们的 Loose 变体(减少保守估计的约束),在后续的在线学习中性能提升速度都显著变慢。


换句话说,虽然这些离线强化学习算法在离线设置中表现出色,但在后续的在线学习期间性能提升缓慢甚至会出现退化。因此,可以观察到 O2O RL 并不能简单迁移之前的算法,其中的优化问题面临着严峻挑战。

为了分析关于 Q 值估计的问题,本文提出了两个量化标准:

1. Q值的标准化差异 (Normalized difference of the Q-value)


2. 基于 Q 值的肯德尔 τ 系数 (Kendall’s τ coefficient over Q-value)


首先,Q 值的标准化差异可以来衡量估计的 Q 值与真实 Q 值之间的差异。具体来说,实验中先计算真实 Q 值和对应的估计 Q 值,其中真实 Q 值是基于当前策略收集的充分延长轨迹上实际获得的回报来计算的,提供了真实 Q 值的准确反映,然后对两者之间的差异进行标准化差异计算,从而提供每种强化学习方法 Q 值估计的误差程度。


另外,为了突出在线 RL 算法与离线 RL 算法之间的差异,实验中还从离线 RL 算法的标准化差异中减去在线 RL 基线(如 SAC)的标准化差异。因此,正的标准化差异意味着离线 RL 算法的 Q 值估计相对于在线基线有过高估计的倾向,反之则意味着低估。

▲ 图5. 几种 offline RL 算法 Q 值的标准化差异的对比图


从图 5 中可以观察到 TD3-BC 和 CQL 通常会过高估计在线收集的未见状态-动作对的 Q 值,而 EDAC 面临着显著的 Q 值低估问题。
其次,基于 Q 值的肯德尔 τ 系数可以用来衡量估计的 Q 值的排序准确性。肯德尔 τ 系数(Kendall's τ coefficient)是一种用于衡量两组数据之间排序相关性的统计方法。它评估的是两个变量的排列顺序之间的相似性。具体的计算原理如下:
1. 数据准备
  • 从预训练的策略中回放多个 episode,收集状态-动作对。
  • 使用滑动窗口方法在每个 episode 中选择状态-动作对的集合,记为P_i,其中 i 表示窗口编号。


2. 计算估计的 Q 值和真实 Q 值
  • 对于每个集合 P_i 中的所有状态-动作对,计算它们的估计 Q 值和真实 Q 值。


3. 计算肯德尔系数:
  • 对每个集合 P_i ,计算肯德尔系数,记为 K_i。 
  • 计算所有集合的系数的平均值。
  • 最终 τ 的值在-1到1之间,值为1表示完全正相关,-1表示完全负相关,0表示无相关。

通过肯德尔 τ 系数可以评估离线强化学习算法在估计 Q 值排序准确性方面的表现。较低的 τ 系数表明离线 RL 算法在 Q 值估计的排序准确性上明显逊于在线 RL 算法,这可能导致训练不稳定和性能提升缓慢。

▲ 图6. 不同算法 Q 值的肯德尔 τ 系数对比


图 6 中显示 offline RL 算法的 τ 系数明显低于 online RL算法(SAC),表明它们在评估不同状态-动作对的相对质量方面并不够准确。
上述的分析说明:虽然这些离线算法(CQL、TD3-BC和EDAC)在预训练后表现出色,并为在线学习提供了良好的初始行为,但它们在不同环境和不同训练设置下,由于 Q 值估计的偏差和排序不准确而导致性能提升缓慢且稳定性差。因此,如何获得准确的 Q 值估计是 O2O RL 的重要瓶颈。

SO2 方法介绍

为了解决上文中分析的 Q 值估计问题,本文基于强化学习中广泛使用的算法设计技巧,提出了两种主要的解决方案:
  • 扰动值更新(Perturbed Value Update, PVU)
  • 增加Q值更新频率


首先,扰动值更新(Perturbed Value Update,PVU)可以对目标动作进行额外的噪声扰动,以平滑带有尖峰的偏差 Q 值估计。这种方法防止智能体过度拟合于过去可能有效但不一定适用于新情况的特定动作。


通过引入带噪声的动作,鼓励智能体在下一个状态中探索不同的动作,减少高估偏差。换句话说,这种设计鼓励智能体考虑一系列合理的动作,而不是固定在某一个看似最优的动作上,从而产生更准确的价值估计,减轻 online RL 中的价值估计偏差。
其次,增加 Q 值更新频率则是一种更自然的想法。对于存在偏差的 Q 值估计,自然需要适当增加更新频率,以便快速收敛到正常水平。增加 Q 值和策略的更新频率使学习过程更能响应新的数据。这导致更准确的价值估计和更快地收敛到最优策略。

这两种技术共同提高了 Q 值函数估计的准确性,并进一步改善了在线学习期间的性能,具体的算法伪代码如下所示:


▲ 图7. SO2 算法伪代码

实验分析

 图8. MuJoCo 环境中 SO2 和其他算法的对比示意图和表格


尽管算法设计非常简单,但 SO2 算法却可以在 O2O RL 问题中表现出非常强大的性能。上图所示的学习曲线对比展示了在不同数量的训练步骤下的性能,SO2 在样本效率和渐近性能方面显著优于所有基准。与其他算法相比,SO2 在利用少量样本时表现出极高效率。同时在经过充分训练后,也可以看到 SO2 在长期训练中的优势。


▲ 图9. 各个算法在不同环境的 Q 值标准差


在图 9 中,还可以观察到在不同实验条件下 SO2 表现为较低的 Q 值标准差,从而体现了SO2 性能收益和之前的 Q 值分析的一致性。

▲ 图10. 基于随机数据集的SO2与在线强化学习的对比

此外,图 10 还表明即便使用随机策略收集的离线训练数据,SO2 仍然可以通过少量在线交互实现专家级性能。这体现了离线到在线强化学习的巨大潜力,并不像模仿学习那样需要大量的专家数据。

▲ 图11. Adroit 环境中各个算法的性能对比

▲ 图12. SO2 算法和之前 O2O RL 算法的组合效果

同时,SO2 也展现出强大的扩展性,兼容性和泛化性。Adroit 环境中的实验(图11)仍然体现了 SO2 的优异性能。而图 12 中的复合实验则说明,SO2 算法可以组合应用到之前的各类 O2O 算法中,更加增强这些算法的最终效果。


展望

O2O RL仍有很多尚未解决的算法问题和应用挑战,未来的工作将会继续探索和扩展 Q 值估计在离线到在线强化学习(O2O RL)的实际应用。研究如何进一步提高 Q 值估计的准确性和效率,以更好地适应和解决实际应用中的挑战。具体来说,如何进一步优化 Q 值估计方法,提高 Q 值估计的准确性和稳定性首当其冲。这可能包括开发新的算法框架,或对现有方法进行调整和优化。


其次,如何应用于更多场景和任务,将所提出的方法应用于更广泛的环境和任务,以验证其泛化能力和实用性,不仅仅局限于游戏或模拟环境的应用,而是扩展到更多现实世界中的复杂和动态场景。最后,除了实证研究外,也还需要更深入的理论研究,对 Q 值估计的理论基础进行更深入的探索和分析,以更好地理解其在不同决策场景下的行为和效果。

开源代码地址:

https://github.com/opendilab/SO2


更多阅读





#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
林黛:从迦百农到拿撒勒----记2023年9月的以色列之AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力【JetBlue收购Spirit被判违反反垄断法】Frontier Airlines和Spirit Airlines宣布将合并!2024龙年礼盒包装还可以这样设计!「Dou来跃龙门」——传统习俗与现代设计的碰撞救命!50%澳人圣诞后疯狂欠债!2024年底估计都还不完!网友直呼:完蛋了…外企校招 | Ericsson爱立信2024秋招还有offer,世界五百强,瑞典外企,可远程办公,注重WLB征文通知 | 2024(第四届)类器官大会暨ISoOR 2024国际类器官高峰论坛,3月7日即将召开!未尽研究:看DAO2024New Year's fireworks 2024 LIVE: NYC's Times Square ball dropCVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步Atlas Coffee Club 免费送一包 12oz 新鲜烘焙咖啡豆,仅需支付邮费 $4.95【1/2:又有了】求助,有没有便宜的在线公证(online notary)推荐啊鲁益师作品Netflix版《纳尼亚传奇》携手芭比导演将重新开拍Strong start 2024Ruffle 2023回顾——Rust实现的开源Flash Player模拟器王延峰:迫切需要重新审视我国大模型科研组织模式宏观策略20240202:美联储以时间换空间,意外⽣意外【租房】本科友好|包杂费家具|NEU/BU/伯克利|新建豪华公寓Studio2800+/1b3700+/2B4999+鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!【Downtown轻奢公寓】345 Harrison【Emerson/Suffolk/Chinatown步行可达】从麻醉医生的角度谈谈收到红包的心理反应NeurIPS 2023 | 从分布鲁棒优化角度理解对比学习的鲁棒性和温度系数的意义NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA加拿大实习丨Ericsson-Worldwide开启科技类2024 intern岗位媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐2024求职季|Netflix (US) 已开放Software Engineer暑期实习岗2024 rav4 油车 le四驱我们日常的判断和决定都是逻辑的吗人生命运中,看不见的邪恶势力到底是什么?《又见洛阳》 84-86 鄂蜀,荆楚,吐谷浑……红色日记 喜迎《五卷》 图片 3.26-31【美坛综艺秀假日篇】Best wishes for 2024!每日原则:当你和别人有意见分歧并处理得不顺利的时候,先暂停争论,重新审视你们沟通的规则早鸟倒计时2天!2024(第四届)类器官大会暨ISoOR 2024国际类器官高峰论坛,3月7日即将召开!2024,重新定义景观设计的新趋势|WLA活动回顾港大宋教授1v1-跨历史的角度考察中国的性别文化问题|收获一作论文与导师推荐信!CA暑期实习丨Ericsson-Worldwide开启科技2024 Internship岗位高校重新审视SAT/ACT的重要性孩子看世界的角度温暖了浮躁的心 | C计划2024年度金句台历2024求职季|Netflix (US) 已开放Machine Learning暑期实习岗位
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。