Redian新闻
>
Insight Time分享 | 基于序列决策和动作依赖的多智能体强化学习算法

Insight Time分享 | 基于序列决策和动作依赖的多智能体强化学习算法

公众号新闻


多智能体强化学习(MARL),作为结合了强化学习和多智能体学习两个领域的重要研究方向,在人工智能行业不断迭代更新的当下,有着广泛的应用。在游戏AI、自动驾驶、港口调度、智能机器人、交通控制、分布式决策、商业管理、软件开发、虚拟现实等领域,多智能体强化学习正在发挥着至关重要的作用。


本期Insight Time 前沿技术分享会,将会为大家介绍一种能够在序列化状态空间扩展的多智能体强化学习方法 ACE,帮助大家更好地探索了解 MARL领域。



您将获得


  • 了解基于序列决策和动作依赖的多智能体强化学习算法 ACE

  • 了解 ACE 算法如何解决多智能体 RL 中的非稳态问题

  • 了解 ACE 算法良好的迁移泛化能力与对 CTDE 场景的兼容性


本期Insight Time活动议程


2023年1月11日(周三)

20:00-20:30


时间

主题

20:00

-

20:05

开场

20:05

-

20:25

《基于序列决策和动作依赖的多智能体强化学习算法》


白河愁,上海人工智能实验室见习研究员,悉尼大学博士生


20:25

-

20:30

互动交流


分享嘉宾


白河愁

上海人工智能实验室见习研究员

白河愁,上海人工智能实验室见习研究员,悉尼大学博士生,研究领域包括:RL、Model-based RL、Multi-Agent RL。


分享主题


期Insight Time 前沿技术分享会,将会介绍一种序列化状态空间扩展的MARL 方法 ACE。该方法将多智能体 MDP 转化为单智能体 MDP,从而避免了多智能体 RL 中的非稳态问题;同时,ACE 引入交互可知的动作编码来优化扩展状态空间的表征。最终 ACE 在 SMAC 和 GRF 上的性能和样本利用率达到了新的 SOTA;并展现出了良好的迁移泛化能力以及对 CTDE 场景的兼容性。


往期回顾


错过的朋友们可以看下方往期 Insight Time 分享会文字+视频实录哦!


Insight Time回顾|机器人技能模仿学习:高效示教下的机器人观测模仿学习方法


Insight Time回顾|高斯过程与决策智能:基于PILCO框架的提升数据效率方法


Insight Time回顾|决策大模型:一种通过无标签视频预训练的方法


Insight Time回顾|如何四分钟训练目标检测器?一种大batch优化技术在视觉下游任务的应用的介绍


Insight Time回顾|InterFuser:端到端自动驾驶场景中的最前沿进展


Insight Time回顾|预训练语言模型会是提升NLP任务性能的关键吗?


Insight Time回顾|图神经网络与金融反欺诈系统的碰撞


Insight Time回顾|浅谈蛋白质结构预测与AlphaFold


Insight Time回顾|席卷顶会热榜的扩散模型是什么?


🥳One more thing


我们在直播中专门设置了问答环节,您可以添加DI小助手微信,向小助手发送您想要和嘉宾交流的问题,我们会在直播中解答您的问题哦。


DI小助手微信


向小助手发送信息:Insight Time


小助手可拉您进入OpenDILab交流大群哦~


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
牛津大学甘家瑞课题组算法博弈论、多智能体系统方向博士生招募ICinsights:MEMS传感器销售创纪录强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉拜登也许躺赢,但是民主党可不是。基于自监督学习的多模态推荐算法ICLR 2023 | PatchTST: 基于Transformer的长时间序列预测从国王偷情到皇帝后宫看教育这年青人卧槽,卧槽,玩命呢啊初学者在力扣学习算法应该刷哪些题?超参数科技招聘:强化学习研究员、深度学习工程师、后台开发工程师等一文详解缺陷检测的传统算法与深度学习算法(内附16篇前沿论文)鱼类和动物正在死亡!美国有毒化学品火车脱轨那晚发生了什么?事故影响几何?深度学习先驱者 Geoffrey Hinton 发布新深度学习算法达摩院算法团队招聘(实习/博后/全职):机器学习算法工程师,AI for Time Series与AIOps方向如何提升深度学习算法效率,谷歌有这些绝招70个奇妙问题、22个趣味小实验,基于生活的物理生物化学知识探索,让孩子爱上思考和动手!NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型天赋“易昺(bǐng)”,创造历史!南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法AAAI 2023 | 均匀序列更好:时间间隔感知的序列推荐数据增强方法谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?招聘 | 阿里巴巴淘系搜索算法团队-机器学习算法工程师-社招NeurIPS 2022 | PointTAD: 基于稀疏点表示的多类别时序动作检测框架北京/上海内推 | 微软亚洲研究院DKI组招聘因果机器学习算法实习生InsightFace项目发起人过佳老师:高效率面部分析算法模型及系统搭建 | 直播预告谷歌新作:计算机视觉遇见强化学习,复用30年前经典算法!杭州内推 | 阿里巴巴淘系搜索算法团队招聘机器学习算法工程师Insight Time分享 | 决策大模型:不止于大!是非成败 信仰的颠覆(六十四)上海/北京内推 | 百度商业研发部模型团队招募机器学习算法工程师/实习生最航运 | Freightos旗下7LFreight扩展北美即时报价和预订,包括空运和卡车零担货运!脉冲磁场AI好奇心,不只害死猫!MIT强化学习新算法,智能体这回「难易通吃」视觉RLHF要来了?谷歌复用30年前经典算法,CV引入强化学习
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。