Redian新闻
>
UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源

UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源

公众号新闻

 本周开源社区新进展
本周推荐关注 5 个基础模型/精调模型 项目,分别用于视觉问答、数学推理、天文多模态、医疗、代码生成;3个系统/框架/工具 项目分别用于 LLM 上下文内存管理、推理加速、移动端大模型部署;3个 Agent 开发 项目


①  加州大学伯克利分校团队开源 MemGPT 

亮点:该项目对多轮对话、长文档等场景,使用虚拟上下文管理理念构建 LLM 操作系统,突破 llama 突破 4k 上下文限制;开源代码及实验数据。

MemGPT 是一个使大型语言模型超越有限上下文窗口的内存管理系统。该系统采用操作系统的内存管理机制从根上解决大模型 context 限制的解决方案,可突破 llama 的 4k 限制,针对多轮对话、长文档等场景处理表现较好。MemGPT 在处理自然语言生成任务时引入了记忆管理的概念,旨在通过智能地管理不同存储层次,为模型提供扩展的上下文窗口,并利用中断来管理控制流。MemGPT 的核心思想是通过函数调用协调主上下文和外部上下文之间的数据移动,可以根据当前上下文自主更新和检索信息,从而实现更长的上下文窗口。
>> https://sota.jiqizhixin.com/project/memgpt 

② 智谱AI & THUDM 开源 AgentLM 系列模型
亮点:AgentLM 由 Llama2-chat 开源模型系列在 AgentInstruct,ShareGPT 混合数据集上微调得到,含 7B、13B及70B 版本。

智谱AI&清华KEG提出了一种对齐 Agent 能力的微调方法 AgentTuning,该方法使用少量数据微调已有模型,显著激发了模型的 Agent能力,同时可以保持模型原有的通用能力。项目开源了经过 Agent 对齐的语言模型,包括 AgentLM-7B,AgentLM-13B,AgentLM-70B,并开源了相应的数据集 AgentInstruct。
>> 该项目由 SOTA!模型社区「LLM 魔改专业户」小组成员「啊扣」推荐收录
>> https://sota.jiqizhixin.com/project/agentlm

③ Adept 开源 Fuyu-8B
亮点:该项目由 Transformer 一作领队开源的 80 亿参数多模态大模型,可理解照片、图表、PDF、界面UI等图像类型。
Adept 开源 80 亿参数多模态大模型 Fuyu-8B,可理解各种图像类型,包括照片、图表、PDF和界面UI。该模型由 Transformer 一作、前 OpenAI 工程副总裁等业内大佬共同创立的机构 Adept 发布。Fuyu-8B 可理解各种图像类型,能理解照片、图表、PDF、界面 UI 等,且处理速度很快,在 100 毫秒可反馈大图像处理结果。在模型结构上,该模型采用纯解码器 Transformer 架构,无需图像编码器,可以支持任意图像分辨率,从而在多项任务中表现更加出色。目前该模型已开源,Demo 可线上试玩,提供了看图问答、图像概述两种功能。
>> 该项目由 SOTA!模型社区「LLM 魔改专业户」小组成员「星野源」推荐收录
>> https://sota.jiqizhixin.com/project/fuyu-8b

④ ElutherAI 开源 LLEMMA-7B、LLEMMA-34B

亮点:EleutherAI等开源的数学专用大模型,出色数学推理能力、支持工具使用和形式定理证明
EleutherAI 等机构发布数学专用大型语言模型 LLEMMA,该模型具有强大的数学推理能力,超越了现有开源基准模型,支持工具使用和形式定理证明。LLEMMA 包含 7B 和 34B 两种型号,基础模型使用 CodeLlama 7B 和 34B 进行初始化,并在 Proof-Pile-2 数据集上分别进行 200B 和 50B 个 tokens 的训练。在数学推理任务中,Llemma 模型的表现超过了 Llama-2、CodeLlama,并且在模型大小控制下,超过了 Minerva。除了数学推理,Llemma 还擅长使用计算工具进行数学计算,并在形式定理(如 Python 和形式定理证明器)证明方面表现出色。
>> 该项目由 SOTA!模型社区「LLM 魔改专业户」小组成员「星野源」推荐收录

>> https://sota.jiqizhixin.com/project/llemma


⑤ 中科院国家天文台开源天文大模型 StarWhisper

亮点:中数学推理和天文能力接近或超过GPT3.5 Turbo

中科院国家天文台开源星语 StarWhisper 天文大模型,在甲骨文 AI 研究院与 LanguageX AI Lab 联合发布的 CG-Eval 上达到总排名第二,数学推理和天文能力接近或超过 GPT 3.5 Turbo。StarWhisper 通过少量天文物理知识微调激活预训练知识与学习特定任务形式,数据集包含专家标注数据、基于种子与开源数据整理得到 GPT3.5/4 数据、天文中的长文本/逻辑思维/文本总结数据。同时通过直接偏好优化,在缓解微调后回复较短问题的同时,配合特定任务微调增强的推理能力,进一步提升回复准确性。通过整理得到的工具学习、代码数据进一步增强模型原有工具学习的能力,可通过调用 Agent/Code Interpreter 处理一系列任务。

>> 由 SOTA!模型社区「LLM 魔改专业户」小组成员「瑀同学」推荐收录
>> https://sota.jiqizhixin.com/project/starwhisper

⑥ NatureAI 开源医疗大型语言模型集合

亮点:基于 Llama2 进行持续预训练、监督微调等环节发布多个模型型号

CareGPT 是一个开源医疗大语言模型,在 Llama2 基础上进行持续预训练、小规模监督微调,以及奖励模型和强化学习阶段,并发布多个不同型号模型。目前,该项目集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含 LLM 的训练、测评、部署等,支持 LLaMA、LLaMA-2 全系列模型训练,LoRA、QLoRA 微调,包括后续 PPO、DPO 强化学习训练,此外,还可与知识库结合用于问答以进行医疗领域 LLM 的开发。

>> 由 SOTA!模型社区「LLM 魔改专业户」小组成员「王荣胜」推荐收录

>> https://sota.jiqizhixin.com/project/caregpt

⑦ 面壁智能公开通用 LLM-Based-Agent 方案代码

亮点:XAgent 由面壁智能联合清华大学NLP实验室联合研发,能够理解人类指令、制定复杂计划并自主执行

XAgent 是一个开源大型语言模型驱动的自主智能体技术方案,旨在实现自主解决复杂任务的能力,由面壁智能和清华大学 NLP 实验室共同研发并推出的。XAgent 作为一个自主智能体,具备理解人类指令、制定复杂计划并自主采取行动的能力。它核心由调度器、规划器、行动者三个部分组成,可以自动解决各种复杂任务,展示出强大的自主性和能力。XAgent 的设计目标是超越传统智能体,通过使用 LLM 作为核心,实现更高水平的任务处理能力。

>> https://sota.jiqizhixin.com/project/xagent

⑧ 英伟达开源大型语言模型推理加速框架 Tensor-LLM

亮点:TensorRT-LLM 构建最先进的优化引擎实现GPU高效推理,可以与 NVIDIA Triton 推理服务器进行集成,提供生产级 LLM 服务。

TensorRT-LLM 是英伟达开源的大型语言模型加速框架,用于定义大型语言模型(LLMs)并构建优化的 TensorRT 引擎,以在 NVIDIA GPU 上高效执行推理。它还包括 Python 和 C++运行时组件,用于执行 TensorRT 引擎。使用 TensorRT-LLM 构建的模型可以在单个 GPU 到多节点多 GPU 的各种配置下运行,支持 Tensor 并行和管道并行。此外,TensorRT-LLM 的 Python API 与 PyTorch API 类似,提供了功能模块和常用构建模块,方便用户定义和组装 LLMs。对于性能和内存占用的最大优化,TensorRT-LLM 支持不同的量化模式,并提供了多个预定义模型供用户使用和修改。

>> https://sota.jiqizhixin.com/project/tensorrt-llm

港大团队开源 Agent 框架 OpenAgents 

亮点:支持数据分析、聊天、支持 200+插件 ,让非专家用户也可以在日常生活场景中使用和部署语言智能体。

港大团队开源的 Agent 开发框架,支持数据分析、聊天、支持 200+插件OpenAgents 是一个开源 Agent 框架,由香港大学的研究团队开发,旨在将大型语言模型应用于真实用户场景中,以帮助用户进行数据分析、聊天等任务,并支持 200 多个插件原创。它包括三个智能体:数据智能体、插件智能体和 Web 智能体。该平台通过针对快速响应和常见故障进行优化的 Web 用户界面,让普通用户可以与智能体的功能进行交互。同时,它也为开发人员和研究人员提供了在本地环境中无缝部署的体验,为语言智能体的构建和实际评估提供了基础。

>> https://sota.jiqizhixin.com/project/openagents

北大团队开源 70 亿参数代码基座大模型 CodeShell

亮点:70亿参数基座,基于5000亿 Tokens进行冷启动训练

CodeShell 是一个由北京大学软件工程国家工程研究中心知识计算实验室与四川天府银行 AI 实验室联合开发的代码大模型。该模型具有 70 亿参数,并在 5000 亿 Tokens 的数据集上进行了训练。CodeShell 采用了 StarCoder 和 Llama 的核心特性,使用自家爬取的 Github 数据、Stack Overflow 数据等作为训练数据。CodeShell 的目标是成为一个全能的代码助手,可以帮助程序员解决编程中的难题,提高工作效率。它支持对话、代码生成、代码补齐、代码注释、代码检查和测试用例等功能。CodeShell 还可以用于低代码平台,帮助开发人员更快地构建应用程序。

>> https://sota.jiqizhixin.com/project/codeshell

 ⑪ Pytorch Edge 新增 ExecuTorch 端侧部署平台

亮点:Pytorch 官方动端运行平台,支持AR/VR可穿戴设备、标准 iOS 和 Android 设备

ExecuTorch 是一个 PyTorch 平台旨在使 PyTorch 程序能够在各种移动设备和边缘设备上进行部署和运行。它是 PyTorch Edge 生态系统的一部分,可以高效地将 PyTorch 模型部署到边缘设备上。ExecuTorch 提供了轻量级运行时和算子注册表,覆盖了 PyTorch 生态系统中的各类模型。它可以在 Arm、苹果和高通处理器上运行,实现在移动设备上广泛部署 AI 工具。ExecuTorch 的主要目标之一是扩展 PyTorch 程序的定制和部署能力。它主要依赖于 PyTorch 的技术,如 torch.compile 和 torch.export。通过 ExecuTorch,机器学习开发人员可以在边缘设备上进行模型分析和调试,提供更好的部署方式。

>> https://sota.jiqizhixin.com/project/executorch

找开源大模型、Agent 项目?来 sota.jiqizhixin.com 试试! 

加入社群



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
通用视觉推理显现,UC伯克利炼出单一纯CV大模型,三位资深学者参与「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练UC伯克利等发布多模态基础模型CoDi-2;谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报千亿级、数学专用,MathGPT大模型开始公测了王者GPT-4已来,32k上下文!OpenAI首届开发者大会最新爆料,全新UI可定制GPT,xAI大模型大范围可用研究 I 美国最危险五所大学,UC伯克利在列阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报把冰敲出火Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star单GPU运行数千大模型!UC伯克利提出全新微调方法S-LoRA计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花不管谁放个打喷嚏,邻居都会感冒终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习报告丨这份AI研究报告,快速搞清楚ChatGPT、Gen-AI、大模型、多模态...传OpenAI秘密训练GPT-5;腾讯混元大模型或本周亮相;首个中英语音多模态LLM开源5142 血壮山河之武汉会战 崩溃 2超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜计算机视觉迎来GPT时刻!UC伯克利三巨头祭出首个纯CV大模型!GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTCDreamLLM:多功能多模态大型语言模型,你的DreamLLM~《中国脊梁》&《九愿》国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B《花信风之处暑》港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。