UC伯克利团队开源MemGPT大模型上下文内存管理方案；AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源

2023-10-22 05:10

本周开源社区新进展

本周推荐关注 5 个基础模型/精调模型 项目，分别用于视觉问答、数学推理、天文多模态、医疗、代码生成；3个系统/框架/工具项目，分别用于 LLM 上下文内存管理、推理加速、移动端大模型部署；3个 Agent 开发 项目

① 加州大学伯克利分校团队开源 MemGPT

亮点：该项目针对多轮对话、长文档等场景，使用虚拟上下文管理理念构建 LLM 操作系统，突破 llama 突破 4k 上下文限制；开源代码及实验数据。

MemGPT 是一个使大型语言模型超越有限上下文窗口的内存管理系统。该系统采用操作系统的内存管理机制从根上解决大模型 context 限制的解决方案，可突破 llama 的 4k 限制，针对多轮对话、长文档等场景处理表现较好。MemGPT 在处理自然语言生成任务时引入了记忆管理的概念，旨在通过智能地管理不同存储层次，为模型提供扩展的上下文窗口，并利用中断来管理控制流。MemGPT 的核心思想是通过函数调用协调主上下文和外部上下文之间的数据移动，可以根据当前上下文自主更新和检索信息，从而实现更长的上下文窗口。

>> https://sota.jiqizhixin.com/project/memgpt

② 智谱AI & THUDM 开源 AgentLM 系列模型

亮点：AgentLM 由 Llama2-chat 开源模型系列在 AgentInstruct，ShareGPT 混合数据集上微调得到，含 7B、13B及70B 版本。

智谱AI&清华KEG提出了一种对齐 Agent 能力的微调方法 AgentTuning，该方法使用少量数据微调已有模型，显著激发了模型的 Agent能力，同时可以保持模型原有的通用能力。项目开源了经过 Agent 对齐的语言模型，包括 AgentLM-7B，AgentLM-13B，AgentLM-70B，并开源了相应的数据集 AgentInstruct。

>> 该项目由 SOTA！模型社区「LLM 魔改专业户」小组成员「啊扣」推荐收录

>> https://sota.jiqizhixin.com/project/agentlm

③ Adept 开源 Fuyu-8B

亮点：该项目由 Transformer 一作领队开源的 80 亿参数多模态大模型，可理解照片、图表、PDF、界面UI等图像类型。

Adept 开源 80 亿参数多模态大模型 Fuyu-8B，可理解各种图像类型，包括照片、图表、PDF和界面UI。该模型由 Transformer 一作、前 OpenAI 工程副总裁等业内大佬共同创立的机构 Adept 发布。Fuyu-8B 可理解各种图像类型，能理解照片、图表、PDF、界面 UI 等，且处理速度很快，在 100 毫秒可反馈大图像处理结果。在模型结构上，该模型采用纯解码器 Transformer 架构，无需图像编码器，可以支持任意图像分辨率，从而在多项任务中表现更加出色。目前该模型已开源，Demo 可线上试玩，提供了看图问答、图像概述两种功能。

>> 该项目由 SOTA！模型社区「LLM 魔改专业户」小组成员「星野源」推荐收录

>> https://sota.jiqizhixin.com/project/fuyu-8b

④ ElutherAI 开源 LLEMMA-7B、LLEMMA-34B

亮点：EleutherAI等开源的数学专用大模型，出色数学推理能力、支持工具使用和形式定理证明

EleutherAI 等机构发布数学专用大型语言模型 LLEMMA，该模型具有强大的数学推理能力，超越了现有开源基准模型，支持工具使用和形式定理证明。LLEMMA 包含 7B 和 34B 两种型号，基础模型使用 CodeLlama 7B 和 34B 进行初始化，并在 Proof-Pile-2 数据集上分别进行 200B 和 50B 个 tokens 的训练。在数学推理任务中，Llemma 模型的表现超过了 Llama-2、CodeLlama，并且在模型大小控制下，超过了 Minerva。除了数学推理，Llemma 还擅长使用计算工具进行数学计算，并在形式定理（如 Python 和形式定理证明器）证明方面表现出色。

>> 该项目由 SOTA！模型社区「LLM 魔改专业户」小组成员「星野源」推荐收录

>> https://sota.jiqizhixin.com/project/llemma

⑤ 中科院国家天文台开源天文大模型 StarWhisper

亮点：中数学推理和天文能力接近或超过GPT3.5 Turbo

中科院国家天文台开源星语 StarWhisper 天文大模型，在甲骨文 AI 研究院与 LanguageX AI Lab 联合发布的 CG-Eval 上达到总排名第二，数学推理和天文能力接近或超过 GPT 3.5 Turbo。StarWhisper 通过少量天文物理知识微调激活预训练知识与学习特定任务形式，数据集包含专家标注数据、基于种子与开源数据整理得到 GPT3.5/4 数据、天文中的长文本/逻辑思维/文本总结数据。同时通过直接偏好优化，在缓解微调后回复较短问题的同时，配合特定任务微调增强的推理能力，进一步提升回复准确性。通过整理得到的工具学习、代码数据进一步增强模型原有工具学习的能力，可通过调用 Agent/Code Interpreter 处理一系列任务。

>> 由 SOTA！模型社区「LLM 魔改专业户」小组成员「瑀同学」推荐收录

>> https://sota.jiqizhixin.com/project/starwhisper

⑥ NatureAI 开源医疗大型语言模型集合

亮点：基于 Llama2 进行持续预训练、监督微调等环节发布多个模型型号

CareGPT 是一个开源医疗大语言模型，在 Llama2 基础上进行持续预训练、小规模监督微调，以及奖励模型和强化学习阶段，并发布多个不同型号模型。目前，该项目集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型，包含 LLM 的训练、测评、部署等，支持 LLaMA、LLaMA-2 全系列模型训练，LoRA、QLoRA 微调，包括后续 PPO、DPO 强化学习训练，此外，还可与知识库结合用于问答以进行医疗领域 LLM 的开发。

>> 由 SOTA！模型社区「LLM 魔改专业户」小组成员「王荣胜」推荐收录

>> https://sota.jiqizhixin.com/project/caregpt

⑦ 面壁智能公开通用 LLM-Based-Agent 方案代码

亮点：XAgent 由面壁智能联合清华大学NLP实验室联合研发，能够理解人类指令、制定复杂计划并自主执行

XAgent 是一个开源大型语言模型驱动的自主智能体技术方案，旨在实现自主解决复杂任务的能力，由面壁智能和清华大学 NLP 实验室共同研发并推出的。XAgent 作为一个自主智能体，具备理解人类指令、制定复杂计划并自主采取行动的能力。它核心由调度器、规划器、行动者三个部分组成，可以自动解决各种复杂任务，展示出强大的自主性和能力。XAgent 的设计目标是超越传统智能体，通过使用 LLM 作为核心，实现更高水平的任务处理能力。

>> https://sota.jiqizhixin.com/project/xagent

⑧ 英伟达开源大型语言模型推理加速框架 Tensor-LLM

亮点：TensorRT-LLM 构建最先进的优化引擎实现GPU高效推理，可以与 NVIDIA Triton 推理服务器进行集成，提供生产级 LLM 服务。

TensorRT-LLM 是英伟达开源的大型语言模型加速框架，用于定义大型语言模型（LLMs）并构建优化的 TensorRT 引擎，以在 NVIDIA GPU 上高效执行推理。它还包括 Python 和 C++运行时组件，用于执行 TensorRT 引擎。使用 TensorRT-LLM 构建的模型可以在单个 GPU 到多节点多 GPU 的各种配置下运行，支持 Tensor 并行和管道并行。此外，TensorRT-LLM 的 Python API 与 PyTorch API 类似，提供了功能模块和常用构建模块，方便用户定义和组装 LLMs。对于性能和内存占用的最大优化，TensorRT-LLM 支持不同的量化模式，并提供了多个预定义模型供用户使用和修改。

>> https://sota.jiqizhixin.com/project/tensorrt-llm

⑨ 港大团队开源 Agent 框架 OpenAgents

亮点：支持数据分析、聊天、支持 200+插件，让非专家用户也可以在日常生活场景中使用和部署语言智能体。

港大团队开源的 Agent 开发框架，支持数据分析、聊天、支持 200+插件OpenAgents 是一个开源 Agent 框架，由香港大学的研究团队开发，旨在将大型语言模型应用于真实用户场景中，以帮助用户进行数据分析、聊天等任务，并支持 200 多个插件原创。它包括三个智能体：数据智能体、插件智能体和 Web 智能体。该平台通过针对快速响应和常见故障进行优化的 Web 用户界面，让普通用户可以与智能体的功能进行交互。同时，它也为开发人员和研究人员提供了在本地环境中无缝部署的体验，为语言智能体的构建和实际评估提供了基础。

>> https://sota.jiqizhixin.com/project/openagents

⑩ 北大团队开源 70 亿参数代码基座大模型 CodeShell

亮点：70亿参数基座，基于5000亿 Tokens进行冷启动训练

CodeShell 是一个由北京大学软件工程国家工程研究中心知识计算实验室与四川天府银行 AI 实验室联合开发的代码大模型。该模型具有 70 亿参数，并在 5000 亿 Tokens 的数据集上进行了训练。CodeShell 采用了 StarCoder 和 Llama 的核心特性，使用自家爬取的 Github 数据、Stack Overflow 数据等作为训练数据。CodeShell 的目标是成为一个全能的代码助手，可以帮助程序员解决编程中的难题，提高工作效率。它支持对话、代码生成、代码补齐、代码注释、代码检查和测试用例等功能。CodeShell 还可以用于低代码平台，帮助开发人员更快地构建应用程序。

>> https://sota.jiqizhixin.com/project/codeshell

⑪ Pytorch Edge 新增 ExecuTorch 端侧部署平台

亮点：Pytorch 官方移动端运行平台，支持AR/VR可穿戴设备、标准 iOS 和 Android 设备

ExecuTorch 是一个 PyTorch 平台旨在使 PyTorch 程序能够在各种移动设备和边缘设备上进行部署和运行。它是 PyTorch Edge 生态系统的一部分，可以高效地将 PyTorch 模型部署到边缘设备上。ExecuTorch 提供了轻量级运行时和算子注册表，覆盖了 PyTorch 生态系统中的各类模型。它可以在 Arm、苹果和高通处理器上运行，实现在移动设备上广泛部署 AI 工具。ExecuTorch 的主要目标之一是扩展 PyTorch 程序的定制和部署能力。它主要依赖于 PyTorch 的技术，如 torch.compile 和 torch.export。通过 ExecuTorch，机器学习开发人员可以在边缘设备上进行模型分析和调试，提供更好的部署方式。

>> https://sota.jiqizhixin.com/project/executorch

找开源大模型、Agent 项目？来 sota.jiqizhixin.com 试试！

加入社群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章