Redian新闻
>
llm-action:让天下没有难学的大模型

llm-action:让天下没有难学的大模型

公众号新闻
今年陆陆续续也写了不少关于大模型的文章,为了方便查看,均梳理了并放置在Github上面: https://github.com/liguodongiot/llm-action

目前该项目已经超过1100星,具体的文章分类如下所示。

来自:吃果冻不吐果冻皮

进NLP群—>加入NLP交流群

LLM训练

LLM训练实战

下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B,从全量微调到高效微调(LoRA,QLoRA,P-Tuning v2),再到RLHF(基于人工反馈的强化学习)。

LLM预训练/SFT/RLHF...参数教程代码
Alpacafull fine-turning7B从0到1复现斯坦福羊驼(Stanford Alpaca 7B)配套代码
Alpaca(LLaMA)LoRA7B~65B1. 足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼
2. 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理
配套代码
BELLE(LLaMA/Bloom)full fine-turning7B1. 基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化
2. BELLE(LLaMA-7B/Bloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试
N/A
ChatGLMLoRA6B从0到1基于ChatGLM-6B使用LoRA进行参数高效微调配套代码
ChatGLMfull fine-turning/P-Tuning v26B使用DeepSpeed/P-Tuning v2对ChatGLM-6B进行微调配套代码
Vicuna(LLaMA)full fine-turning7B大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼N/A
OPTRLHF0.1B~66B1. 一键式 RLHF 训练 DeepSpeed Chat(一):理论篇 
2. 一键式 RLHF 训练 DeepSpeed Chat(二):实践篇
配套代码
MiniGPT-4(LLaMA)full fine-turning7B大杀器,多模态大模型MiniGPT-4入坑指南N/A
Chinese-LLaMA-Alpaca(LLaMA)LoRA(预训练+微调)7B中文LLaMA&Alpaca大语言模型词表扩充+预训练+指令精调配套代码
LLaMAQLoRA7B/65B高效微调技术QLoRA实战,基于LLaMA-65B微调仅需48G显存,真香配套代码

LLM微调技术原理

对于普通大众来说,进行大模型的预训练或者全量微调遥不可及。由此,催生了各种参数高效微调技术,让科研人员或者普通开发者有机会尝试微调大模型。

因此,该技术值得我们进行深入分析其背后的机理,本系列大体分七篇文章进行讲解。

  • 大模型参数高效微调技术原理综述(一)-背景、参数高效微调简介
  • 大模型参数高效微调技术原理综述(二)-BitFit、Prefix Tuning、Prompt Tuning
  • 大模型参数高效微调技术原理综述(三)-P-Tuning、P-Tuning v2
  • 大模型参数高效微调技术原理综述(四)-Adapter Tuning及其变体
  • 大模型参数高效微调技术原理综述(五)-LoRA、AdaLoRA、QLoRA
  • 大模型参数高效微调技术原理综述(六)-MAM Adapter、UniPELT
  • 大模型参数高效微调技术原理综述(七)-最佳实践、总结

LLM微调实战

下面给大家分享大模型参数高效微调技术实战,该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解,共6篇文章。

教程代码框架
大模型参数高效微调技术实战(一)-PEFT概述及环境搭建N/AHuggingFace PEFT
大模型参数高效微调技术实战(二)-Prompt Tuning配套代码HuggingFace PEFT
大模型参数高效微调技术实战(三)-P-Tuning配套代码HuggingFace PEFT
大模型参数高效微调技术实战(四)-Prefix Tuning / P-Tuning v2配套代码HuggingFace PEFT
大模型参数高效微调技术实战(五)-LoRA配套代码HuggingFace PEFT
大模型参数高效微调技术实战(六)-IA3配套代码HuggingFace PEFT

LLM分布式训练并行技术

近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此,我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。

而利用AI集群,使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标,一般需要根据硬件资源与数据/模型规模的匹配情况,考虑对计算任务、训练数据和模型进行划分,从而进行分布式训练。因此,分布式训练相关技术值得我们进行深入分析其背后的机理。

下面主要对大模型进行分布式训练的并行技术进行讲解,本系列大体分八篇文章进行讲解。

  • 大模型分布式训练并行技术(一)-概述
  • 大模型分布式训练并行技术(二)-数据并行
  • 大模型分布式训练并行技术(三)-流水线并行
  • 大模型分布式训练并行技术(四)-张量并行
  • 大模型分布式训练并行技术(五)-序列并行
  • 大模型分布式训练并行技术(六)-多维混合并行
  • 大模型分布式训练并行技术(七)-自动并行
  • 大模型分布式训练并行技术(八)-MOE并行
  • 大模型分布式训练并行技术(九)-总结

分布式AI框架

  • PyTorch
    • PyTorch 单机多卡训练
    • PyTorch 多机多卡训练
  • Megatron-LM
    • Megatron-LM 单机多卡训练
    • Megatron-LM 多机多卡训练
    • 基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理
  • DeepSpeed
    • DeepSpeed 单机多卡训练
    • DeepSpeed 多机多卡训练
  • Megatron-DeepSpeed
    • 基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练
    • 基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练

分布式训练网络通信

  • 分布式训练网络通讯原语
  • AI 集群通信软硬件

LLM推理

模型推理加速

  • 大模型的好伙伴,浅析推理加速引擎FasterTransformer
  • TensorRT-LLM
  • PageAttention
  • FlashAttention

模型推理服务化

  • 模型推理服务化框架Triton保姆式教程(一):快速入门
  • 模型推理服务化框架Triton保姆式教程(二):架构解析
  • 模型推理服务化框架Triton保姆式教程(三):开发实践

LLM压缩

LLM量化

训练后量化:

  • SmoothQuant
  • ZeroQuant
  • GPTQ
  • LLM.int8()

量化感知训练:

  • 大模型量化感知训练开山之作:LLM-QAT

量化感知微调:

  • QLoRA
  • PEQA

LLM剪枝

结构化剪枝

  • LLM-Pruner

非结构化剪枝

  • SparseGPT
  • LoRAPrune
  • Wanda

LLM知识蒸馏

Standard KD:

使学生模型学习教师模型(LLM)所拥有的常见知识,如输出分布和特征信息,这种方法类似于传统的KD。

  • MINILLM
  • GKD

EA-based KD:

不仅仅是将LLM的常见知识转移到学生模型中,还涵盖了蒸馏它们独特的涌现能力。具体来说,EA-based KD又分为了上下文学习(ICL)、思维链(CoT)和指令跟随(IF)。

In-Context Learning:

  • In-Context Learning distillation

Chain-of-Thought:

  • MT-COT
  • Fine-tune-CoT
  • DISCO
  • SCOTT
  • SOCRATIC CoT

Instruction Following:

  • Lion

低秩分解

低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵,从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解,得到两个矩阵U和V,使得W≈U V,其中U是一个m×k矩阵,V是一个k×n矩阵,其中k远小于m和n。U和V的乘积近似于原始的权重矩阵,从而大幅减少了参数数量和计算开销。

在LLM研究的模型压缩领域,研究人员通常将多种技术与低秩分解相结合,包括修剪、量化等。

  • ZeroQuant-FP(低秩分解+量化)
  • LoRAPrune(低秩分解+剪枝)

LLM算法架构

  • 大模型算法演进
  • ChatGLM / ChatGLM2 大模型解析
  • Bloom 大模型解析
  • LLaMA / LLaMA2 大模型解析

LLM国产化适配

随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。与此同时,中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。本系列将对一些国产化 AI 加速卡进行讲解。

  • 大模型国产化适配1-华为昇腾AI全栈软硬件平台总结
  • 大模型国产化适配2-基于昇腾910使用ChatGLM-6B进行模型推理
  • 大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练
  • 大模型国产化适配4-基于昇腾910使用LLaMA-13B进行多机多卡训练

LLM应用开发

大模型是基座,要想让其变成一款产品,我们还需要一些其他相关的技术,比如:向量数据库(Pinecone、Milvus、Vespa、Weaviate),LangChain等。

  • 云原生向量数据库Milvus(一)-简述、系统架构及应用场景
  • 云原生向量数据库Milvus(二)-数据与索引的处理流程、索引类型及Schema

LLM生态相关技术

  • 大模型词表扩充必备工具SentencePiece
  • 大模型实践总结
  • 百川智能开源大模型baichuan-7B技术剖析
  • 百川智能开源大模型baichuan-13B技术剖析
  • ChatGLM 和 ChatGPT 的技术区别在哪里?
  • 现在为什么那么多人以清华大学的ChatGLM-6B为基座进行试验?
  • 关于大模型驱动的AI智能体Agent的一些思考
  • 为什么很多新发布的大模型默认使用BF16而不是FP16?

服务器基础环境安装及常用工具

基础环境安装:

  • 英伟达A800加速卡常见软件包安装命令
  • 英伟达H800加速卡常见软件包安装命令
  • 昇腾910加速卡常见软件包安装命令

常用工具:

  • Linux 常见命令大全
  • Conda 常用命令大全
  • Poetry 常用命令大全
  • Docker 常用命令大全
  • Docker Dockerfile 指令大全
  • Kubernetes 常用命令大全
  • 集群环境 GPU 管理和监控工具 DCGM 常用命令大全


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
为什么中文比外文难学,粤语比普通话难学?BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?双重国籍的退休生活免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!Continuous Batching:解锁LLM潜力!让LLM推断速度飙升23倍,降低延迟!小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大智源扔出大模型“全家桶”!推最强开源中英双语LLM,赶超Llama 2[干货] 《经济学人》公布最难学的五种语言案例 | 13年犁出“一亩田”,让天下没有难卖的货李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解大隐隐于市!越南一家人在San Jose开的小店全是越南客人——Phở Cường 26.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会nǚ hóng?nǚ gōngUC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源吹尽黄沙不见金(七十四):暗示Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐5133 血壮山河之武汉会战 信罗战役 6国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70BDreamLLM:多功能多模态大型语言模型,你的DreamLLM~开源大模型FLM-101B:训练成本最低的超100B参数大模型全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%《天凉好个秋》&《江南烟雨路》英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性他刚在我们去的冰川失踪去世了TUM、LMU食堂纷纷罢工!泼天的富贵这次轮到Döner店了?北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型天下事有难易乎?为之,则难者亦易矣让天下没有难做的开发和运维,DevOps终于有了专属大模型,蚂蚁和北大联合发布陈丹琦新作:一个LLM的评估基准LLMBarLLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量全新注意力算法PagedAttention:LLM吞吐量提高2-4倍,模型越大效果越好
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。