---- 本周为您解读 ⑦ 个值得细品的 AI & Robotics 业内要事 ----
AI Agent 是什么?LLM-as-Agent 是什么?为什么要用 LLM 做 Agent?开源和闭源模型谁更擅长做 Agent?LLM-as-Agent 当前的局限有什么?... 2. 图灵奖得主 Yoshua Bengio 的 AI 意识可能性研究报告探讨了什么? 什么样的 AI 才算有意识?对 AI 意识的研究都有哪些理论支撑?现在已经有 AI 模型具备意识了吗?...什么叫做用 LLM 做机器人大脑?谁在做机器人大脑?LLM 跟机器人有什么关系?LLM 做的大脑有有前途吗?... 4. OpenAI 开放微调API,MaaS 搞得起来吗? ChatGPT 3.5 Turbo 开放微调功能做什么?价格如何?OpenAI 还有哪些 Maas 服务?收费情况如何?有哪些国内大厂也在做 MAAS 业务?...Oneflow 为何选择「AI Infra」方向?此前还有谁入局「AI Infra」?「AI Infra」有哪些知名团队?…本周新出了什么代码生成模型?新的模型表现如何?代码生成模型大盘点 ...小米造车时间线全回顾;小米获发改委批准,生产电动汽车;小米造车坊间传闻汇总;小米为什么造车?赚钱吗? ...
...本期完整版通讯含以上 6 项专题解读 + 36 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 10 项,国外方面 14 项...
本期通讯总计 27298 字,可免费试读至 7 % 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读 ① LLM-as-Agent 技术哪家强?
事件:8 月 22 日,清华 GLM 团队发布 AgentBench 基准,用于评估 LLMs 作为智能体的能力,发现开源模型与商业模型之间还存在显著的能力差距。清华 KEG 与数据挖掘小组(开发 GLM 的团队)开发了 AgentBench 测试基准,用于评估 LLMs 在多回合开放式生成环境中的推理和决策能力,含 8 个环境。他们选取了 25 个闭源/开源的模型,通过 API 或 Docker 的方式进行测试。1、顶级 LLM 已具备处理真实世界环境交互的强大能力。① GPT-4 在 AgentBench 的 8 个数据集中有 7 个表现最佳,在「网络购物(WS)」环境中稍弱。② GPT-4 在「家居(HH)」 有 78%的成功率,表明模型已具备实际可用性。③ 其他基于 API 的 LLM 表现相对较差,但同样展示了在一定程度上解决问题的能力,表明这些模型具备作为 Agent 的潜力。2、大多数开源 LLM 在 AgentBench 中的表现远不如基于 API 的 LLM(平均分为 0.42 对比 2.24)。① openchat-13b-v3.2 是评分中能力最强的开源模型(得分 1.15),但仍与 gpt-3.5-turbo 存在明显的性能差距,与网上的说法相冲突。② 根据测评表现,开源的 LLM 在诸如知识图谱(KG)、卡牌对战(DCG)和家居(HH)等具有挑战性的任务中,通常无法解决任何问题。3、作者团队在测评中发现 V0.2 版本的 ChatGLM2 (即他们自己的模型)在 8 个闭源模型中的表现较差,表示将在未来工作汇总着重改进。
2023 年 6 月,OpenAI 的 Safety 团队负责人 Lilian Weng 发布了一篇 6000 字的博客介绍 AI Agent,并认为这将使 LLM 转为通用问题解决方案的途径之一。我们根据该篇博客总结提炼了关于 AI Agent 的相关内容。1、AI Agent 是一种智能体系统,以 LLM 作为核心控制器。① 一些开源项目,如 AutoGPT、GPT-Engineer 和 BabyAGI 等,采用了类似的方法。AI Agent 的目标不仅仅是生成高质量的文本、故事、散文和程序,它还可以被构建成一个强大的通用问题解决器。2、AI Agent 的核心概念是使用 LLM 解决问题。① LLM 的主要能力在于理解意图并生成文本,但通过让 LLM 学会使用工具,可以大大扩展其能力。AI Agent 系统就是通过这种方式实现的。3、AI Agent 主要由规划(Planning)、记忆(Memory)、工具使用(Tool Use)三个核心组件构成。① 规划组件:将大型任务分解为较小的、可管理的子目标;进行反思与细化,对过去行为进行分析、总结和提炼,以提高自身的智能和适应性,提高最终结果的质量。