Redian新闻
>
让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider

让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider

公众号新闻

机器之心专栏

机器之心编辑部


大语言模型因其强大而通用的语言生成、理解能力,展现出了成为通用智能体的潜力。与此同时,在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此,大语言模型如何适配开放世界是一个重要的研究问题。


北京大学和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider,该方法赋予了大模型在开放世界中探索任务、收集数据、学习策略的能力,助力智能体在《我的世界》(Minecraft)中自主探索获取知识并学习解决各种任务,提升智能体自主能力和通用性。


自主探索开放世界



  • 论文链接:https://arxiv.org/abs/2310.08922

  • 代码链接:https://github.com/PKU-RL/LLaMA-Rider


1、环境反馈驱动的探索与学习


LLaMA-Rider 着眼于让大语言模型 (LLM) 适应环境从而提高在环境中解决多任务的能力。LLM 在预训练阶段获得的知识与实际环境很可能存在不一致,这常常导致决策错误。为了解决这个问题,现有的方法有些利用提示工程,通过和 LLM 频繁交互让其获取环境信息,不过并不更新 LLM;有些使用强化学习在线微调 LLM,不过其计算代价高且难以扩展到多任务和复杂任务。


LLaMA-Rider 对此提出了新的思路。它首先利用环境的反馈信息,靠 LLM 自身的能力在环境中探索,收集成功经验。之后,LLaMA-Rider 将经验整合成监督数据集进行学习,更新自身的知识。这样一个两阶段的训练框架让 LLaMA-Rider 能够在 Minecraft 环境中的 30 个任务上取得超过 ChatGPT 任务规划器的平均表现,并展现出对新任务的泛化能力。



在探索阶段,LLaMA-Rider 利用反馈 - 修改机制来进行主动探索。在每个时间步上,LLaMA-Rider 接收文本化的环境信息和任务信息,并给出下一步的决策。由于与环境的知识差距,该决策可能无法在环境中执行并触发环境的反馈信息,而该反馈信息会再次输入给 LLaMA-Rider,引导其修改决策。凭借 LLM 自身的上下文理解能力和环境反馈信息,LLaMA-Rider 可高效探索开放世界。


为了将 LLM 的文本输出匹配到环境的动作空间,LLaMA-Rider 使用了一组预训练的技能作为技能库,并使用技能检索模块将 LLM 的输出文本和技能库中的技能描述进行匹配,检索最接近的技能。由于技能描述和环境中的动作相比具有更多的语义,这种方式可以更大程度利用 LLM 的能力。


此外,LLaMA-Rider 使用了子任务重标记的方法,在探索过程中用当前正在完成的子任务信息替换输入中的原始任务信息,让 LLM 在探索过程中能关注当下的子目标,提高任务成功率。



在学习阶段,探索时收集到的经验将会整合成监督数据集,用以对 LLM 进行监督微调 (SFT)。数据集中同样采用子任务重标记的方法让 LLaMA-Rider 学习到任务之间的子任务组合性,提高策略的泛化能力。


2、实验效果


LLaMA-Rider 使用的大语言模型为近期推出的 LLaMA-2-70B-chat。在 Minecraft 的三类共 30 个任务中,LLaMA-Rider 的表现超过了基于 ChatGPT 的任务规划器,并且经过学习后的 LLaMA-Rider 所能完成的任务数量也超过了它在探索阶段能成功的数量,展现出 LLaMA-Rider 对于开放世界中持续学习和多任务解决的能力。


与强化学习 (RL) 方法相比,LLaMA-Rider 则展现出了高采样效率和低训练代价的优势。即使在难度较简单、完成步数较短的木材相关任务上,RL 方法也难以取得训练成效,表明强化学习的训练方法难以扩展到大动作空间以及复杂的场景中。而 LLaMA-Rider 在探索阶段只采用了 5-10 次的任务探索便完成数据收集,在学习阶段也只在包含 1.3k 样本量的数据集上进行训练就取得了效果提升。



作者进而发现,在对上述的 30 个任务进行探索学习后,LLaMA-Rider 在测试时对于学习过程中未探索过的更困难的铁矿相关任务,也能取得效果的提升。这进一步体现了 LLaMA-Rider 学习到的决策能力的泛化性。



在消融实验中,作者利用包含更多子任务的石头相关任务,验证了子任务重标记的方法对于任务成功率和任务泛化能力的关键作用。



除此之外,尽管 LLaMA-Rider 只学习了任务决策相关的数据,当作者使用任务相关的问题进行提问时,LLaMA-Rider 也给出了更准确的回答,表明它在训练过程中同样学习到了环境知识,证明 LLaMA-Rider 起到了与环境知识对齐的作用。



3、总结


作者提出了 LLaMA-Rider 的大语言模型训练框架,让大语言模型根据环境反馈结合自身能力自主探索开放世界,并根据收集到的经验完成高效学习,在 Minecraft 环境中取得了比包括 ChatGPT 任务规划器在内的其他方法更好的解决多任务的能力,让大语言模型获得了对开放世界的适应性。此外,LLaMA-Rider 能利用过去任务的经验解决新任务的泛化能力表明了该方法应用于大模型终身探索学习的前景。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%这篇文章是用AI大模型自动生成的NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解一个海归白领住进山野,探索开放式两性关系别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻《花信风之白露》刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑《原神》冰箱贴:神子&宵宫&申鹤&甘雨&刻晴&优菈&莫娜7位角色!智源扔出大模型“全家桶”!推最强开源中英双语LLM,赶超Llama 29/11,后撞的南塔为何早46分倒?及本世纪最英勇华裔 &《WB翅膀》金字塔型的社会组织(第三章摘要)NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调看电影孤注一掷 & 吃火锅智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对6003 血壮山河之随枣会战 “和平运动 ”3一百二十一 罢官改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架大模型写代码能力突飞猛进,北大团队提出结构化思维链SCoT持续数据开源,智源发布超3亿对面向中英文语义向量模型训练数据集西工大提出全新「群聊式」无人机控制框架!类人对话交互、主动环境感知、自主实体控制【没听过的邓歌】之十二《追梦》& 邓丽君台北故居寻访之路 by 唐歌GPT-4超豪华套餐上线,全新32K模型遭泄密!文件上传分析,模型自动选择,绝杀千家AI公司上海姑娘裸辞住进山里:不婚生娃,探索开放式两性关系一百二十二 照相[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型大模型改变世界,这家公司改变大模型《情人的眼泪》& 介绍一位呱呱叫的音乐老师热贴把我老家拍的那么丑,必须来几张漂亮的&简易攻略精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构GPT-4比你更会问问题:让大模型自主复述,打破与人类对话的壁垒
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。