UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源
① 加州大学伯克利分校团队开源 MemGPT
亮点:该项目针对多轮对话、长文档等场景,使用虚拟上下文管理理念构建 LLM 操作系统,突破 llama 突破 4k 上下文限制;开源代码及实验数据。
④ ElutherAI 开源 LLEMMA-7B、LLEMMA-34B
>> https://sota.jiqizhixin.com/project/llemma
亮点:中数学推理和天文能力接近或超过GPT3.5 Turbo
中科院国家天文台开源星语 StarWhisper 天文大模型,在甲骨文 AI 研究院与 LanguageX AI Lab 联合发布的 CG-Eval 上达到总排名第二,数学推理和天文能力接近或超过 GPT 3.5 Turbo。StarWhisper 通过少量天文物理知识微调激活预训练知识与学习特定任务形式,数据集包含专家标注数据、基于种子与开源数据整理得到 GPT3.5/4 数据、天文中的长文本/逻辑思维/文本总结数据。同时通过直接偏好优化,在缓解微调后回复较短问题的同时,配合特定任务微调增强的推理能力,进一步提升回复准确性。通过整理得到的工具学习、代码数据进一步增强模型原有工具学习的能力,可通过调用 Agent/Code Interpreter 处理一系列任务。
⑥ NatureAI 开源医疗大型语言模型集合
CareGPT 是一个开源医疗大语言模型,在 Llama2 基础上进行持续预训练、小规模监督微调,以及奖励模型和强化学习阶段,并发布多个不同型号模型。目前,该项目集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含 LLM 的训练、测评、部署等,支持 LLaMA、LLaMA-2 全系列模型训练,LoRA、QLoRA 微调,包括后续 PPO、DPO 强化学习训练,此外,还可与知识库结合用于问答以进行医疗领域 LLM 的开发。
>> 由 SOTA!模型社区「LLM 魔改专业户」小组成员「王荣胜」推荐收录
亮点:XAgent 由面壁智能联合清华大学NLP实验室联合研发,能够理解人类指令、制定复杂计划并自主执行
XAgent 是一个开源大型语言模型驱动的自主智能体技术方案,旨在实现自主解决复杂任务的能力,由面壁智能和清华大学 NLP 实验室共同研发并推出的。XAgent 作为一个自主智能体,具备理解人类指令、制定复杂计划并自主采取行动的能力。它核心由调度器、规划器、行动者三个部分组成,可以自动解决各种复杂任务,展示出强大的自主性和能力。XAgent 的设计目标是超越传统智能体,通过使用 LLM 作为核心,实现更高水平的任务处理能力。
亮点:TensorRT-LLM 构建最先进的优化引擎实现GPU高效推理,可以与 NVIDIA Triton 推理服务器进行集成,提供生产级 LLM 服务。
TensorRT-LLM 是英伟达开源的大型语言模型加速框架,用于定义大型语言模型(LLMs)并构建优化的 TensorRT 引擎,以在 NVIDIA GPU 上高效执行推理。它还包括 Python 和 C++运行时组件,用于执行 TensorRT 引擎。使用 TensorRT-LLM 构建的模型可以在单个 GPU 到多节点多 GPU 的各种配置下运行,支持 Tensor 并行和管道并行。此外,TensorRT-LLM 的 Python API 与 PyTorch API 类似,提供了功能模块和常用构建模块,方便用户定义和组装 LLMs。对于性能和内存占用的最大优化,TensorRT-LLM 支持不同的量化模式,并提供了多个预定义模型供用户使用和修改。
⑨ 港大团队开源 Agent 框架 OpenAgents
亮点:支持数据分析、聊天、支持 200+插件 ,让非专家用户也可以在日常生活场景中使用和部署语言智能体。
港大团队开源的 Agent 开发框架,支持数据分析、聊天、支持 200+插件OpenAgents 是一个开源 Agent 框架,由香港大学的研究团队开发,旨在将大型语言模型应用于真实用户场景中,以帮助用户进行数据分析、聊天等任务,并支持 200 多个插件原创。它包括三个智能体:数据智能体、插件智能体和 Web 智能体。该平台通过针对快速响应和常见故障进行优化的 Web 用户界面,让普通用户可以与智能体的功能进行交互。同时,它也为开发人员和研究人员提供了在本地环境中无缝部署的体验,为语言智能体的构建和实际评估提供了基础。
⑩ 北大团队开源 70 亿参数代码基座大模型 CodeShell
亮点:70亿参数基座,基于5000亿 Tokens进行冷启动训练
CodeShell 是一个由北京大学软件工程国家工程研究中心知识计算实验室与四川天府银行 AI 实验室联合开发的代码大模型。该模型具有 70 亿参数,并在 5000 亿 Tokens 的数据集上进行了训练。CodeShell 采用了 StarCoder 和 Llama 的核心特性,使用自家爬取的 Github 数据、Stack Overflow 数据等作为训练数据。CodeShell 的目标是成为一个全能的代码助手,可以帮助程序员解决编程中的难题,提高工作效率。它支持对话、代码生成、代码补齐、代码注释、代码检查和测试用例等功能。CodeShell 还可以用于低代码平台,帮助开发人员更快地构建应用程序。
⑪ Pytorch Edge 新增 ExecuTorch 端侧部署平台
亮点:Pytorch 官方移动端运行平台,支持AR/VR可穿戴设备、标准 iOS 和 Android 设备
ExecuTorch 是一个 PyTorch 平台旨在使 PyTorch 程序能够在各种移动设备和边缘设备上进行部署和运行。它是 PyTorch Edge 生态系统的一部分,可以高效地将 PyTorch 模型部署到边缘设备上。ExecuTorch 提供了轻量级运行时和算子注册表,覆盖了 PyTorch 生态系统中的各类模型。它可以在 Arm、苹果和高通处理器上运行,实现在移动设备上广泛部署 AI 工具。ExecuTorch 的主要目标之一是扩展 PyTorch 程序的定制和部署能力。它主要依赖于 PyTorch 的技术,如 torch.compile 和 torch.export。通过 ExecuTorch,机器学习开发人员可以在边缘设备上进行模型分析和调试,提供更好的部署方式。
加入社群
微信扫码关注该文公众号作者