Redian新闻
>
IJCAI 2024 | 多智能体强化学习新范式:个性化训练与蒸馏执行

IJCAI 2024 | 多智能体强化学习新范式:个性化训练与蒸馏执行

公众号新闻

©作者 | 陈逸群

单位 | 中国人民大学

研究方向 | 信息检索、LLM、强化学习


大家好,这里和大家分享一篇我们在多智能体强化学习(MARL)领域关于新的训练范式的文章(Accepted by IJCAI 2024)。

论文标题:
PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning

论文链接:

https://arxiv.org/pdf/2210.08872

代码链接:

https://github.com/AntNLP/nope_head_scale

这篇文章展示了如何通过个性化的集中式训练得到一个强大的集中式执行算法,然后通过知识蒸馏的方式使得智能体决策既受益于全局信息同时又能实现分散式执行,从而提升多智能体系统的协作性能。


研究背景与挑战

在现实世界的许多任务中,如多机器人导航、避障、无人机路径规划等,都可以建模为多智能体系统的决策问题。这些场景通常受到局部可观测和分散式执行的约束。

最常见的范式是集中式训练分散式执行(Centralized Training with Decentralized Execution, CTDE),这种范式在训练时利用全局信息促进各个智能体实现协作行为,在执行时只使用局部信息,是观测信息受限情况下的一种很好的训练 & 执行范式。

但如何在满足 CTDE 范式的前提下,还能在分散式决策过程中充分受益于全局信息,进而提升多智能体的协作表现呢?本文提出了一种新颖的范式(Personalized Training with Distilled Execution, PTDE)来实现这一目标。


PTDE的核心思想

PTDE 范式符合 CTDE 的要求,但与传统 CTDE 不同的是 PTDE 强调为每个智能体提供个性化的全局信息,并通过知识蒸馏将这些个性化的全局信息通过智能体的局部信息预测得到。这种方法不仅大大提升了智能体集中式执行的性能,而且转变为分散式执行时的性能下降也是在可接受范围内的。


研究方法

PTDE 包含两个训练阶段。

第一阶段,通过全局信息个性化(GIP)模块为每个智能体提供个性化的全局信息 。(Figure 2)

▲ 全局信息个性化(GIP)模块
第二阶段,使用知识蒸馏技术,将个性化的全局信息 蒸馏到仅依赖于智能体局部信息的学生网络中,即学生网络根据局部信息生成个性化全局信息的替代品 。(Figure 4)

▲ 特定化的知识蒸馏

经过两阶段的训练后,在执行阶段用 替代 ,就可以实现完全分散式的执行并且受益于特定化的全局信息。

▲ 两阶段训练&分散式执行


实验结果

我们在 StarCraft II、Google Research Football 和搜索排序(LTR)等不同的测试平台上进行了广泛的实验。

实验结果表明:

  • unified 的全局信息对多智能体的协作不一定起到积极作用。
  • 个性化的全局信息相比于 unified 的全局信息来说,一般更有利于多智能体的协作。
  • 知识蒸馏后,由集中式执行转变为分散式执行的性能下降是在可接受范围内的。
  • 基于 PTDE 范式的算法可以在不同类型的环境 & 任务中取得不错的性能。
  • PTDE 范式可以很好地适配现有的 MARL 算法,如基于值分解的 QMIXVDN,以及基于 Actor-Critic 架构的 MAPPO 等。


以下是本文实验部分的一些基本数据,分别是在 StarCraft II、Google Research Football 和搜索排序(LTR)多个任务上的结果:

▲ 星际争霸实验结果

▲ 谷歌足球实验结果

▲ 搜索排序实验结果

文章的实验部分展示了更多充分且详细的实验曲线&结果分析,具体可进一步参考原文(http://arxiv.org/pdf/2210.08872)。


结论与展望

PTDE 作为一种新的多智能体强化学习范式,通过个性化的全局信息和知识蒸馏技术,有效地提升了多智能体系统的协作决策能力。

以上就是对 PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning(http://arxiv.org/pdf/2210.08872)这篇文章的分享,如果感兴趣的话推荐阅读原文(http://arxiv.org/pdf/2210.08872)。如果想要讨论任何问题或者有任何建议,欢迎交流!

此外,还要宣传一下我们将 MARL 应用于搜索结果多样性排序(Search Result Diversification, SRD)的文章,探索 MARL 在更多场景应用的可能性:

MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification(https://arxiv.org/pdf/2403.17421.pdf)



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
复刻Sora的通用视频生成能力,开源多智能体框架Mora来了ICML 2024 | 量化大模型退化严重?ETH北航字节推出LoRA新范式春季观鹤:2024 科州刘彤教授专访:及时准确诊断、迅速个性化治疗,畅谈心脏结节病的临床诊疗及展望 | OCC-WCC 2024吴恩达:多智能体协作是新关键,软件开发等任务将更高效智能纤毛粘附设计新范式:超越壁虎仿生设计的极限 | NSRICLR 2024 | AnomalyCLIP:零样本异常检测新范式国家标准《生成式人工智能预训练和优化训练数据安全规范》征求意见一句话手机自己打车,开源多智能体AI助手,非苹果手机也能玩妮妮的感谢量化大模型退化严重?ETH北航字节推出LoRA新范式 | ICML 2024只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调揭秘俩“菲利普斯”双录取的背后:个性化成长路径与申请规划的力量三道菜的电影大餐做制片应该先考研还是先工作?丨8.17制片标准化训练营善待老去的父母就是善待明天的自己今日arXiv最热联邦学习论文:通信成本降低94%,中科院计算所发布个性化联邦学习方法金融场景中的多智能体应用探索脱离现实-忘我的状态,是健康长寿的一个关键因素百度文心智能体平台举办开发者沙龙,打造国内领先的智能体生态 | Q推荐【化学关系】2. 化学方程式:用速记符号表示化学平衡反应愚人节(4/1/2024)打通智能体「自我进化」全流程!复旦推出通用智能体平台AgentGym从WAIC2024看人工智能三大趋势:智能体、具身智能、算力风暴CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式AI破冰癌症治疗!Cancer Res | 人工智能技术助力更具个性化的癌症疗法策略,显著延长患者复发的时间,最长可达两倍ICML 2024 | 川大提出外部引导的深度聚类新范式,大幅提升CLIP图像聚类性能WWW 2024 | 华为、清华提出个性化多模态生成新方法,让AIGC更懂你裕锦资产 | 积极探索深度学习和强化学习CVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆究竟有多少律师,在“假装”学习新《公司法》?Best CD Rates Of April 2024: Up To 5.42%告别偏科,能玩转多模态、多任务、多领域的强化智能体终于来了智能体技术发展趋势:李鹏谈大模型智能体与开放领域融合直播 | 深度学习新趋势:创新教师的成长之路有不烦车子的自动停启功能的吗?2024 BMW X5强化学习第十三篇:使用深度学习解决迷宫问题,完整步骤和代码2024,哪个包会是LV的断货王?璀璨而悲凉:大明才子的传奇人生GSB观点|​人工智能可以帮助“个性化”政策惠及合适的人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。