---- 本周为您解读 ④ 个值得细品的 AI & Robotics 业内要事 ----
1. LLM-based Agent 未必是通向 AGI 的终极路径? LLM-based Agent 会是通向 AGI 的终极路径吗?为何「强化学习之父」Richard Sutton 另辟蹊径?阿尔伯塔计划做 AGI 的路径成败的关键点在哪?与 LLM-based Agent 的路径有何不同?做 AGI 还有哪些其他的路径?...什么是「得编译层者得芯片」?CUDA 为何是护城河?英伟达靠 CUDA 筑了多高的墙?是什么正在冲击 CUDA 的壁垒?都有谁会因为 PyTorch 获得机会?... 3. 给大模型「照 X 光」:神经网络的可解释性能否解决大模型的黑盒问题? 为什么神经网络的可解释性研究对大语言模型至关重要?Anthropic 为什么关注可解释性相关工作?Anthropic 的神经网络可解释性报告都讲了什么?得出了哪些关键结论?... 4. 扎堆儿扩展上下文:从 LLM 时代走向 Long LLM 时代 Moonshot AI 发模型了?Meta 又把上下文窗口扩了?20 万字窗口是什么概念?为啥都在扎堆扩张上下文窗口容量?......本期完整版通讯含以上 4 项专题解读 + 25 项本周 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 8 项,国外方面 9 项...
本期通讯总计 23190 字,可免费试读至 8 % 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 要事解读 ① LLM-based Agent 未必是通向 AGI 的终极路径?
事件:前 Meta Oculus CTO 卡马克和「强化学习之父」萨顿宣布联手创业,计划不依赖大模型,通过实时在线学习的方式实现通用人工智能(AGI)。1、卡马克和萨顿将通往 AGI 的计划命名为阿尔伯塔计划,计划创建与一个复杂得多的世界互动并开始预测和控制其感觉输入信号的长寿命计算代理。总体目标是模拟一个具有内在动机和持续学习能力的虚拟智能体,在虚拟环境中持续学习。① AGI 的架构应该是模块化和分布式的,而不是一个巨大的集中模型。④ 为了适应变化和世界的复杂性,代理必须持续学习,而不是现在的预训练之后大部分参数就不再更新。⑤ 为了迅速适应,代理必须使用已学习的世界模型进行计划。2、采用高级强化学习的方法,总体环境从增强学习领域熟悉开始,代理和环境在精细的时间尺度上交换信号。① 长寿命的计算代理,需要与一个复杂的世界互动,并开始预测和控制其感觉输入信号,接收到“奖励”信号。② 然后,代理向环境发送动作,并从中接收“观察”信号。较大的“观察”信号,提供关于环境状态的完整信息。③ 观察、动作、奖励三个信号构成了整体。智能体的所有学习都基于这三个信号,而不是基于环境内部的变量。只有经验对代理可用,环境只作为这些信号的来源和下沉。1、早在 1950 年代,Alan Turing 就将「智能」的概念扩展到了人工实体,并提出了著名的图灵测试。这些人工智能实体通常被称为 —— 代理(Agent*)。「代理」这一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在人工智能领域,这一术语被赋予了一层新的含义:具有自主性、反应性、积极性和社交能力特征的智能实体。2、大型语言模型(LLMs)的出现为智能代理的进一步发展带来了希望,用语言模型做AGI 也成为目前较为主流的路线。① 如果将 NLP 到 AGI 的发展路线分为五级:语料库、互联网、感知、具身和社会属性,那么目前的大型语言模型已经来到了第二级,具有互联网规模的文本输入和输出。② 在这个基础上,如果赋予 LLM-based Agents 感知空间和行动空间,它们将达到第三、第四级。进一步地,多个代理通过互动、合作解决更复杂的任务,或者反映出现实世界的社会行为,则有潜力来到第五级 —— 代理社会。阿尔伯塔计划的「基础智能代理模型」技术路线与其他做 AGI 路线有哪些不同?[19]1、强调普通经验,而不是特殊的训练集、人工协助或访问世界的内部结构。尽管有许多方式人类输入和领域知识可以用来提高 AI 的性能,但这样的方法通常不随计算资源扩展。2、时间一致性。时间一致性意味着与代理上运行的算法相比,所有时间都是相同的,没有特殊的训练。即提供了培训信息,如通过奖励信号,代理将在每一个时间步骤上提供。举例来说,如果代理学习或计划,则它在每个时间步骤上学习或计划。如果代理建立自己的表示或子任务,那么构建它们的元算法在每一个时间步骤上操作。如果代理可以减少其关于环境的学习速度,当它们看起来稳定时,那么它也可以增加其学习速度,当它们开始改变时。3、对计算问题的认知不同。目前,摩尔定律及其泛化带来了计算机能力的稳定指数增长,因此,研究者必须优先选择与计算机能力成比例的方法。① 计算机能力,虽然指数级地增加,但永远不是无限的。② 计算机能力越大,高效地使用就越重要,这是代理性能的决定因素。③ 优先考虑学习、搜索等方法,这些方法可以与计算能力广泛地扩展,同时淡化那些不适用的方法,如对人类标记的训练集等。4、关注环境中的其他智能代理。在这种情况下,主代理可能会学习与环境进行沟通、合作和竞争,并应该认识到,环境可能会对其行动作出不同的反应。通过一个代理可以使用它所学到的东西来放大和增强另一个代理的行动、感知和认知,这种放大是实现 AI 全部潜力的重要部分。LLM-based Agent 是否是通向 AGI 的合适道路?[18]1、目前,大型语言模型是最为热门的AGI研究方向,但其是否是实现 AGI 的潜在路径仍然是一个备受争议和有争议的话题。① 有研究者认为,以 GPT-4 为代表的大模型已经在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开 AGI 之门的钥匙。