Redian新闻
>
顺序决策与基础模型如何交叉互惠?谷歌、伯克利等探讨更多可能

顺序决策与基础模型如何交叉互惠?谷歌、伯克利等探讨更多可能

公众号新闻
机器之心报道

编辑:王强

预训练基础模型和顺序决策的研究越来越频繁地出现交叉,那么如何将两个领域的研究交融,让二者都从交叉研究中受益?这篇论文对这一问题进行了深入探讨。
在广泛数据集上基于自监督学习的预训练基础模型,已经展现出将知识迁移到不同下游任务的优秀能力。因此,这些模型也被应用到长期推理、控制、搜索和规划等更复杂的问题,或者被部署在对话、自动驾驶、医疗保健和机器人等应用中。未来它们也会提供接口给外部实体和智能体,例如在对话应用中,语言模型与人进行多轮交流;在机器人领域,感知控制模型在真实环境中执行动作。

这些场景为基础模型提出了新的挑战,包括:1) 如何从外部实体(如人对对话质量的评价)的反馈中学习,2) 如何适应大规模语言或视觉数据集中不常见的模态(如机器人动作),3) 如何在未来进行长期的推理和规划。 

这些问题一直是传统意义上顺序决策的核心,涵盖了强化学习、模仿学习、规划、搜索和最优控制等领域。与基础模型使用数十亿图像和文本 token 的广泛数据集进行预训练的范式相反,以往关于顺序决策制定的工作主要集中在任务特定或具有有限先验知识的白板设置上。

尽管缺少或没有先验知识让顺序决策看起来很难,但是对顺序决策的研究已经在多个任务上超越了人类表现,如玩棋盘游戏、雅达利(Atari)电子游戏以及操作机器人完成导航和操作等。

然而,由于这些方法学习从零开始解决任务而没有来自视觉、语言或其它数据集的广泛知识,因此通常在泛化和样本效率方面表现不佳,例如需要 7 块 GPU 运行一天才能解决单个雅达利游戏。直觉上,类似于基础模型所用的广泛数据集也应该对顺序决策制定模型有用。举例而言,互联网上有无数关于如何玩雅达利游戏的文章和视频。同样地,有关对象和场景属性的大量知识对于机器人非常有用,关于人类愿望和情感的知识也可以改善对话模型。

虽然由于应用和关注点不同,基础模型和顺序决策的研究大体上是不相交的,但交汇的研究也越来越多。在基础模型方面,随着大语言模型的出现,目标应用从简单的零样本或少样本任务扩展到现在需要长期推理或多次交互的问题 。相反在顺序决策领域,受到大规模视觉和语言模型成功的启发,研究人员开始为学习多模型、多任务和通用交互式智能体准备越来越大的数据集。

两者领域之间的界线变得越来越模糊,一些最近的工作研究了预训练基础模型(例如 CLIP 和 ViT)在视觉环境中 bootstrap 交互式智能体的训练,而其他工作则研究了基础模型作为通过强化学习和人类反馈进行优化的对话智能体。还有一些工作还调整大型语言模型以与外部工具交互,例如搜索引擎、计算器、翻译工具、MuJoCo 模拟器和程序解释器。

最近,谷歌大脑团队、UC 伯克利和 MIT 的研究者撰文表示,基础模型和交互式决策研究相结合会让彼此受益。一方面,将基础模型应用于涉及外部实体的任务中,可以从交互式反馈和长期规划中受益。另一方面,顺序决策可以利用基础模型的世界知识更快地解决任务并进行更好的泛化。

论文地址:https://arxiv.org/pdf/2303.04129v1.pdf

为了在这两个领域的交集上推动进一步的研究,研究者限定了用于决策制定的基础模型的问题空间。同时提供了理解当前研究的技术工具,回顾了目前存在的挑战和未解决的问题,并预测了解决这些挑战的潜在解决方案和有前景的方法。

论文概览

论文主要分为以下 5 个主要章节。

第 2 章回顾了顺序决策的相关背景,并提供了一些基础模型和决策制定最好一起考虑的示例场景。随后讲述了围绕基础模型如何构建决策制定系统的不同组件。

第 3 章探讨了基础模型如何作为行为生成式模型(比如技能发现)和环境生成式模型(比如进行基于模型的推演)。

第 4 章探讨了基础模型如何作为状态、动作、奖励和转移动态的表示学习器(例如即插即用的视觉 - 语言模型、基于模型的表示学习)。

第 5 章探讨了语言基础模型如何作为交互式智能体和环境,使得可以在顺序决策框架(语言模型推理、对话、工具使用)下考虑新问题和应用。

最后一章,研究者概述了未解决的问题和挑战,并提出了潜在的解决方案(例如如何利用广泛的数据、如何构建环境以及基础模型和顺序决策的哪些方面可以得到改进)。

更多细节内容请参阅原论文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
清华人工智能研究院「基础模型研究中心」成立!唐杰任研究中心主任,孙茂松任首席科学家谷歌内部文件泄漏:谷歌、OpenAI都没有护城河,大模型门槛正被开源踏破IBM:拥抱基础模型与生成式AI,迎接“AI+”新时代【租房】免半月中介费!Fenway地区Studio和一室公寓出租,本科生友好,近BU、伯克利、NEU和地铁绿线|无忧精选公寓楼耶鲁,哥大,MIT、伯克利等顶尖名校纷纷创立新学院!AGIEval:准确考察基础模型类人能力的基准评估工具谷歌内部文件泄漏!谷歌、OpenAI都没有护城河,大模型门槛正被开源踏破!上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊中国AI大模型地图发布;GPT研究烧掉30亿美金;美团正自研基础模型丨AIGC大事日报普林斯顿、杜克、范德堡、伯克利……2023最新美国大学新生暑期阅读书目出炉CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域怎么开始学佛(十八)凡所有相,皆是虚妄ACL 2023 | 持续进化中的语言基础模型超越YOLOv8!YOLO-NAS:下一代目标检测基础模型谷歌AI音乐工具开始公测,英国启动对AI基础模型初步审查,网络表演市场营收近2000亿元【独家租房】免半月中介费!Fenway一室公寓现在入住,本科生友好,近BU、NEU、伯克利和Longwood医学区7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型录取喜报 | 藤校日重磅offer:恭喜宾夕法尼亚大学录取2枚!莱斯录取+1、伯克利+2 等OpenAI劲敌融资13亿美元;中国团队推首颗AI全自动设计CPU;全球首个医疗多模态基础模型群发布丨AIGC大事日报《花心》Prompt Sapper:基础模型的灵魂伴侣,AI服务的创新工场Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式5030 血壮山河之武汉会战 九江战役 5首届即出牛津、伯克利,魔都妈妈们放心了:终于盼到这所一贯制双语校有毕业生了!口碑超好!【独家租房】免半月中介费!Fenway一室公寓6月出租,本科生友好,近BU、NEU、伯克利和Longwood医学区“伶荔(Linly)”项目团队全新发布中文Falcon基础模型ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2(古詩詞英譯) 梅花 - 王安石〔宋代〕宾大、伯克利大动作!中国学生速速关注国民警卫队会保卫特朗普吗?CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型耶鲁,哥大,MIT、伯克利等顶尖名校纷纷创立新学院剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型一群顺义妈妈的坚持,10多年不内卷,却把娃送进牛津、范德堡、伯克利
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。