Redian新闻
>
MABIM:多智能体强化学习算法的“炼丹炉”

MABIM:多智能体强化学习算法的“炼丹炉”

科技


(本文阅读时间:7分钟)


编者按:现实世界中,许多问题和任务都是由多个参与者交互进行的,所以要想使用人工智能技术解决真实世界的问题,就需要更好地模拟这种复杂的环境,而这正是多智能体强化学习(MARL)的强项。早在2020年,微软亚洲研究院基于多智能体强化学习,推出了面向多行业横截面上的多智能体资源调度平台 MARO。

随着研究的深入,研究员们发现互动式的学习环境和测试平台对多智能体强化学习的发展至关重要。为此,近期微软亚洲研究院在 GitHub 开源了一个能够灵活适应多智能体强化学习各种挑战的学习测试平台——MABIM,从而可以更好地测试 MARL 算法,让其更容易迁移到真实的应用场景中。


多智能体强化学习 (Multi-Agent Reinforcement Learning,MARL) 是强化学习研究的一个重要分支,旨在让多个智能体在特定环境中通过合作与竞争的方法来实现共同目标。与传统的单智能体强化学习相比,MARL 具有多项优势:能够更好地模拟现实世界的复杂环境,解决涉及多个参与者的问题,并提高系统的鲁棒性、学习效率、自适应与可扩展性。正是这些优势让 MARL 成为了解决实际问题的有力工具,在机器人协同控制、自动驾驶、游戏、经济学、金融、医疗等领域具有广泛的应用前景。


MABIM基准测试平台:助力训练最具实用价值的MARL算法


强化学习算法的发展与进步离不开互动式学习环境和测试平台。这些环境为强化学习提供了丰富的学习空间,使智能体得以在实践中不断优化决策策略,从而在各种复杂应用场景中取得成功。近年来,MARL 领域涌现出许多不同类型的学习环境,对 MARL 算法的发展产生了积极的影响。然而,目前还没有学习环境既能充分考虑到 MARL 领域的众多挑战,又能提供灵活的定制和扩展。



库存管理作为供应链领域最关键的场景之一,在企业运营中具有非常重要的地位。通过合理的库存管理,企业可以降低成本、提高客户满意度、保障生产稳定、提高资金周转速度,进而实现企业经济效益的最大化。因此,微软亚洲研究院的研究员们以运筹学领域的库存管理问题为基础,设计了一个具有高自由度、支持多级多商品库存网络的 MARL 基准测评框架——MABIM (Multi-Agent Benchmark for Inventory Management),并已在 GitHub 上开源。


MABIM GitHub 链接:

https://github.com/victoryxl/replenishmentenv





MABIM 平台可以灵活适应 MARL 的各种挑战。通过配置参数,MABIM 能轻松定制不同环境,模拟各种具有挑战性的场景。例如,可以通过设置不同层级的库存网络和不同数量的商品来模拟众多智能体之间的协作、通过设置不同的仓库空间来模拟智能体之间不同程度的竞争与合作、通过设置不同的客户需求来模拟非平稳的环境等等。


MABIM 框架图


MABIM 共内置了51个具有挑战性的任务,涉及 MARL 领域多种不同挑战的组合,可以用来测试 MARL 算法在复杂场景下的适配能力和运行效果。比如,针对解决复杂合作和竞争关系的 MARL 算法,可以使用多个层级库存网络加上受限的仓库库容测试;对于着重解决可扩展性的 MARL 算法,可以使用含有更多个商品(>=1000)的任务进行测试。此外,MABIM 还具有高运行效率、基于 GYM 标准接口、完整的策略可视化工具和基于真实数据等特点,使其能更好地支持 MARL 的研究。


MARL挑战犹在,MABIM的研究还将继续 


研究员们利用 MABIM 测试了多种经典的运筹学和多智能体强化学习算法,发现了一些有趣的结论,如 IPPO 算法在智能体数量增多时训练将变得困难,QTRAN 算法会变得不稳定;在资源紧张的竞争环境中,IPPO 表现出短视行为,为了避免短期的损失而采取长期不盈利的策略;在需要上下游合作的环境中,纯 MARL 算法难以学习到有效的上下游策略;在非平稳环境中,MARL 策略优于普通运筹学算法等。这说明,虽然 MARL 算法在业界有很大的应用潜力,但也面临着更大的挑战,如计算复杂度会随智能体数量指数级增加、智能体之间的合作与竞争、不稳定的环境等。


IPPO 和 QTRAN 算法的训练随着智能体数量的增加变得不稳定


计算复杂度:随着智能体数量的增加,MARL 的计算复杂度会呈指数级增加。这是因为每个智能体都需要考虑其他智能体的策略,从而导致状态空间和动作空间迅速增大。这给学习和优化过程带来了巨大的挑战,尤其是在大规模多智能体系统中,如在库存管理领域,当有大量成千上万的商品需要做决策时,每个商品都可能需要考虑其他商品的决策。这使得计算复杂度迅速增加,让实时决策和控制变得困难。


合作与竞争:智能体之间的合作和竞争关系是 MARL 的核心挑战之一。合作关系需要智能体之间共享信息和协调行动,而竞争关系需要智能体在有限资源下优化自身目标。这些关系的建立和维护对于学习有效策略至关重要,但在实际应用中可能非常困难,比如在库存管理场景中,多个商品需要在有限的资源下竞争(预算、仓库货架空间等),同时也需要与其他商品合作以维持整体效益最大化。在这种情况下,设计既能合作又能竞争的强化学习算法是一项巨大的挑战。


不稳定的环境:在 MARL 中,智能体的行为会影响环境,从而影响其他智能体的学习过程,这使环境变得非平稳和不确定,给学习和优化带来了额外的困难。比如在库存管理领域,每个商品的未来需求是不确定的,导致了整个环境有很大的不确定性。


虽然 MABIM 是基于库存管理任务的学习环境,但其涉及的众多问题在业界具备一定的普遍性,经过 MABIM 测试的 MARL 算法将更容易迁移到业界的其它应用中。未来,微软亚洲研究院还将继续完善 MABIM,包括将库存管理模型扩展到树形或网络结构,以评估智能体之间的通信能力;隐藏部分商品特征,以评估算法在部分观测情况下的表现。通过这些扩展,研究员们希望 MABIM 能够更接近真实场景,进一步降低算法从实验室到真实系统迁移的代价,助力业界解决真实场景中的难题。



MABIM GitHub 链接:

https://github.com/victoryxl/replenishmentenv
















你也许还想看:






微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
强化学习驱动的低延迟视频传输大模型只是起点:朝向多智能体和人类紧密协作的未来|戴雨森对话吴翼[电脑] 可以放进背包的炼丹炉,ZS-A4DC装机如果韩国“炼”出常温超导,对中国芯片意味着什么?刺激,无人机竞速超越顶级人类玩家,强化学习再登Nature封面第五篇:强化学习基础之马尔科夫决策过程吴恩达最新博文:机器学习领域六个核心算法的溯源和总结ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架Qlib全新升级:强化学习能否重塑金融决策模式?语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路博士申请 | 亚利桑那州立大学魏华老师招收强化学习全奖博士/硕士/本科/实习生第八篇:强化学习值迭代及代码实现潜水器失踪进展!多次下潜船体强度下降,创始人强行让它下海?内部设施极其简陋,有点离谱...DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕第十二篇:强化学习SARSA算法你好,我是筚(bì)篥( lì)!攀爬、跳跃、过窄缝,开源强化学习策略让机器狗能跑酷了时装杂志的摄影师这么说龚俊的笑容—来自520的雪花马尔斯绿健身设施披上“智能新衣”——“聚焦智能体育消费新业态”系列报道之三第10篇:强化学习Q-learning求解迷宫问题 代码实现ChatGPT:打破推荐算法的“牢笼”Anthropic创始人访谈:Scaling与强化学习,可解释性与AGI安全地中海邮轮行之三强化学习的应用领域和案例ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?上天不公平第三篇:强化学习发展历史斯坦福AI智能体爆火研究!「好奇回放」算法让AI自我反思,主动探索新奇世界与我的人造飞碟文章相关的花絮北京内推 | 微软亚洲研究院数据知识智能组招聘强化学习方向研究实习生KCL夏教授:深度学习算法提升光声成像分辨率的研究|收获一作论文与导师推荐信!第六篇:强化学习策略迭代 通俗解释复习强化学习过往四篇对话汇智智能:AI 智能体时代,数字营销范式在革新
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。