Insight Time分享 | 基于序列决策和动作依赖的多智能体强化学习算法

2023-01-11 07:01

多智能体强化学习（MARL），作为结合了强化学习和多智能体学习两个领域的重要研究方向，在人工智能行业不断迭代更新的当下，有着广泛的应用。在游戏AI、自动驾驶、港口调度、智能机器人、交通控制、分布式决策、商业管理、软件开发、虚拟现实等领域，多智能体强化学习正在发挥着至关重要的作用。

本期Insight Time 前沿技术分享会，将会为大家介绍一种能够在序列化状态空间扩展的多智能体强化学习方法 ACE，帮助大家更好地探索了解 MARL领域。

您将获得

了解基于序列决策和动作依赖的多智能体强化学习算法 ACE
了解 ACE 算法如何解决多智能体 RL 中的非稳态问题
了解 ACE 算法良好的迁移泛化能力与对 CTDE 场景的兼容性

本期Insight Time活动议程

2023年1月11日（周三）

20:00-20:30

时间	主题
20:00 - 20:05	开场
20:05 - 20:25	《基于序列决策和动作依赖的多智能体强化学习算法》白河愁，上海人工智能实验室见习研究员，悉尼大学博士生
20:25 - 20:30	互动交流

分享嘉宾

白河愁

上海人工智能实验室见习研究员

白河愁，上海人工智能实验室见习研究员，悉尼大学博士生，研究领域包括：RL、Model-based RL、Multi-Agent RL。

分享主题

本期Insight Time 前沿技术分享会，将会介绍一种序列化状态空间扩展的MARL 方法 ACE。该方法将多智能体 MDP 转化为单智能体 MDP，从而避免了多智能体 RL 中的非稳态问题；同时，ACE 引入交互可知的动作编码来优化扩展状态空间的表征。最终 ACE 在 SMAC 和 GRF 上的性能和样本利用率达到了新的 SOTA；并展现出了良好的迁移泛化能力以及对 CTDE 场景的兼容性。

往期回顾

错过的朋友们可以看下方往期 Insight Time 分享会文字+视频实录哦！

Insight Time回顾｜机器人技能模仿学习：高效示教下的机器人观测模仿学习方法

Insight Time回顾｜高斯过程与决策智能：基于PILCO框架的提升数据效率方法

Insight Time回顾｜决策大模型:一种通过无标签视频预训练的方法

Insight Time回顾｜如何四分钟训练目标检测器？一种大batch优化技术在视觉下游任务的应用的介绍

Insight Time回顾｜InterFuser：端到端自动驾驶场景中的最前沿进展

Insight Time回顾｜预训练语言模型会是提升NLP任务性能的关键吗？

Insight Time回顾｜图神经网络与金融反欺诈系统的碰撞

Insight Time回顾｜浅谈蛋白质结构预测与AlphaFold

Insight Time回顾｜席卷顶会热榜的扩散模型是什么？

🥳One more thing