Redian新闻
>
世界模型也扩散!训练出的智能体竟然不错

世界模型也扩散!训练出的智能体竟然不错

公众号新闻
机器之心报道
编辑:小舟、陈萍
在图像生成领域占据主导地位的扩散模型,开始挑战强化学习智能体。

世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。


然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在模型提出了挑战。


受这种范式转变的推动,来自日内瓦大学、爱丁堡大学、微软研究院的研究者联合提出一种在扩散世界模型中训练的强化学习智能体 —— DIAMOND(DIffusion As a Model Of eNvironment Dreams)。



  • 论文地址:https://arxiv.org/abs/2405.12399

  • 项目地址:https://github.com/eloialonso/diamond

  • 论文标题:Diffusion for World Modeling: Visual Details Matter in Atari


DIAMOND 在 Atari 100k 基准测试中获得了 1.46 的平均人类归一化得分 (HNS),可以媲美完全在世界模型中训练的智能体的 SOTA 水平。该研究提供了定性分析来说明,DIAMOND 的设计选择对于确保扩散世界模型的长期高效稳定是必要的。


此外,在图像空间中操作的好处是使扩散世界模型能够成为环境的直接替代品,从而提供对世界模型和智能体行为更深入的了解。特别地,该研究发现某些游戏中性能的提高源于对关键视觉细节的更好建模。


方法介绍


接下来,本文介绍了 DIAMOND, 这是一种在扩散世界模型中训练的强化学习智能体。具体来说,研究者基于 2.2 节引入的漂移和扩散系数 f 和 g,这两个系数对应于一种特定的扩散范式选择。此外,该研究还选择了基于 Karras 等人提出的 EDM 公式。


首先定义一个扰动核,其中, 是一个与扩散时间相关的实值函数,称为噪声时间表。这对应于将漂移和扩散系数设为 


接着使用 Karras 等人(2022)引入的网络预处理,同时参数化公式(5)中的,作为噪声观测值和神经网络 预测值的加权和: 



得到公式(6)



其中为了简洁定义,包含所有条件变量。 




预处理器的选择。选择预处理器,以保持网络输入和输出在任何噪声水平 下的单位方差。 是噪声水平的经验转换,  由  和数据分布的标准差  给出,公式为


 结合公式 5 和 6,得到训练目标:



该研究使用标准的 U-Net 2D 来构建向量场,并保留一个包含过去 L 个观测和动作的缓冲区,以此来对模型进行条件化。接下来他们将这些过去的观测按通道方式与下一个带噪观测拼接,并通过自适应组归一化层将动作输入到 U-Net 的残差块中。正如在第 2.3 节和附录 A 中讨论的,有许多可能的采样方法可以从训练好的扩散模型中生成下一个观测。虽然该研究发布的代码库支持多种采样方案,但该研究发现欧拉方法在不需要额外的 NFE(函数评估次数)以及避免了高阶采样器或随机采样的不必要复杂性的情况下是有效的。 


实验


为了全面评估 DIAMOND,该研究使用了公认的 Atari 100k 基准测试,该基准测试包括 26 个游戏,用于测试智能体的广泛能力。对于每个游戏,智能体只允许在环境中进行 100k 次操作,这大约相当于人类 2 小时的游戏时间,以在评估前学习玩游戏。作为参考,没有限制的 Atari 智能体通常训练 5000 万步,这相当于经验的 500 倍增加。研究者从头开始在每个游戏上用 5 个随机种子训练 DIAMOND。每次运行大约使用 12GB 的 VRAM,在单个 Nvidia RTX 4090 上大约需要 2.9 天(总计 1.03 个 GPU 年)。 


表 1 比较了在世界模型中训练智能体的不同得分:



图 2 中提供了平均值和 IQM( Interquartile Mean )置信区间:



结果表明,DIAMOND 在基准测试中表现强劲,超过人类玩家在 11 个游戏中的表现,并达到了 1.46 的 HNS 得分,这是完全在世界模型中训练的智能体的新纪录。该研究还发现,DIAMOND 在需要捕捉细节的环境中表现特别出色,例如 Asterix、Breakout 和 Road Runner。


为了研究扩散变量的稳定性,该研究分析了自回归生成的想象轨迹(imagined trajectory),如下图 3 所示:



该研究发现有些情况需要迭代求解器将采样过程驱动到特定模式,如图 4 所示的拳击游戏:



如图 5 所示,与 IRIS 想象的轨迹相比,DIAMOND 想象的轨迹通常具有更高的视觉质量,并且更符合真实环境。



感兴趣的读者可以阅读论文原文,了解更多研究内容。


为了挖掘和展示人工智能领域具有市场竞争力、技术实力的机构、产品、案例,形成 “鸿雁” 引领效应,机器之心发起 2024 “人工智能 +” 标杆示范征集活动。本次征集将设置《2024 “人工智能 +” 产品标杆》、《2024 “人工智能 +” 创新案例标杆》、《2024 人工智能隐形冠军企业标杆》三大维度,面向全球征集 “人工智能 +” 标杆示范。本次征集结果将于 7 月在 2024 WAIC “人工智能 +” 论坛上公布并进行颁奖。本次征集截至 2024 年 6 月 7 日,最终结果将于 7 月在世界人工智能大会上公布并颁奖。

扫码或点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
这家世界模型公司发布中国版Sora级视频生成大模型,走向世界模型打造新一代数据引擎Sora世界模型 与 OpenAI宫斗戏 - AI到底有多强大?从文字模型到世界模型!Meta新研究让AI Agent理解物理世界首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作离世界模型更近一步!Meta开源OpenEQA,评估AI Agent情景理解能力中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户从WAIC2024看人工智能三大趋势:智能体、具身智能、算力风暴42、长篇家庭伦理小说《嫁接 下》第十四章 缘起缘灭(3)ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了小模型技术是中国企业率先导入装备中,大模型也不例外李小牧畅销书自传《歌舞伎町案内人》而闻名日本通用世界模型问世:不学习就能生成新领域视频,可实时控制只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软预计容纳 35 万颗 H100!训练 Llama 大模型的基础设施是如何搭建的LeCun新作:分层世界模型,数据驱动的人型机器人控制扩散模型也能推荐短视频!港大腾讯提出新范式DiffMM曼大孙教授1v1-ChatGPT在MineCraft游戏中的智能体设计|收获一作论文与导师推荐信!复旦邱锡鹏教授讲述 MOSS 2 研发进展:如何实现世界模型?冰岛冰川泻湖(Glacier Lagoon),无声表达英国《金融时报》推出根据数十年文章内容库训练出来的AI机器人Ask FTIJCAI 2024 | 多智能体强化学习新范式:个性化训练与蒸馏执行可「自主进化」的Agent?首个端到端智能体符号化训练框架开源了打通智能体「自我进化」全流程!复旦推出通用智能体平台AgentGym清华、华为等提出iVideoGPT:专攻交互式世界模型Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型ICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少复旦邱锡鹏教授讲述MOSS 2 研发进展:如何实现世界模型?GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界跑步看世界-奥兰多最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规智能体技术发展趋势:李鹏谈大模型智能体与开放领域融合Karpathy又整活儿了!一天训练出GPT-2、成本还骤降100倍,网友:dream老黄把价格再打下来狗引儿【长篇】(七十五)百度文心智能体平台举办开发者沙龙,打造国内领先的智能体生态 | Q推荐
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。