Redian新闻
>
单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布

单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布

公众号新闻



  新智元报道  

编辑:好困
【新智元导读】刚刚,UC伯克利、CMU、斯坦福等,联手发布了最新开源模型骆马(Vicuna)的权重。

3月31日,UC伯克利联手CMU、斯坦福、UCSD和MBZUAI,推出了130亿参数的Vicuna,俗称「小羊驼」(骆马),仅需300美元就能实现ChatGPT 90%的性能。

今天,团队正式发布了Vicuna的权重——只需单个GPU就能跑!

项目地址:https://github.com/lm-sys/FastChat/#fine-tuning

130亿参数,90%匹敌ChatGPT

Vicuna是通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来,训练成本近300美元。

研究人员设计了8个问题类别,包括数学、写作、编码,对Vicuna-13B与其他四个模型进行了性能测试。

测试过程使用GPT-4作为评判标准,结果显示Vicuna-13B在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。同时,在在超过90%的情况下胜过了其他模型,如LLaMA和斯坦福的Alpaca。

训练

Vicuna-13B的训练流程如下:
首先,研究人员从ChatGPT对话分享网站ShareGPT上,收集了大约70K对话。接下来,研究人员优化了Alpaca提供的训练脚本,使模型能够更好地处理多轮对话和长序列。之后利用PyTorch FSDP在8个A100 GPU上进行了一天的训练。
· 内存优化:
为了使Vicuna能够理解长上下文,将最大上下文长度从Alpaca的512扩展到2048,这大大增加了GPU内存需求。在此,研究人员通过使用梯度检查点和闪存注意力来解决内存压力。
· 多轮对话:
通过调整训练损失以考虑多轮对话,并仅在聊天机器人的输出上计算微调损失。
· 通过Spot实例降低成本:
采用SkyPilot托管的Spot实例来降低成本,将7B模型的训练成本从500美元降低到约140美元,将13B模型的训练成本从约1000美元降低到300美元。

评估

在模型的质量评估方面,研究人员创建了80个不同的问题,并用GPT-4对模型输出进行了评价。
为了比较不同的模型,研究人员将每个模型的输出组合成一个单独的提示,然后让GPT-4评估哪个模型给出的回答更好。
其中,GPT-4在超过90%的问题中更喜欢Vicuna,而不是现有的SOTA开源模型(LLaMA、Alpaca)。
在45%的问题中,GPT-4认为Vicuna的回答和ChatGPT差不多甚至更好。
综合来看,Vicuna在总分上达到ChatGPT的92%。

安装使用

安装

方法一:

# Install FastChatpip3 install fschat
# Install a specific commit of huggingface/transformers# Our released weights do not work with commits after this due to some upstream changes in the tokenizer.pip3 install git+https://github.com/huggingface/transformers@c612628045822f909020f7eb6784c79700813eda

方法二:

1. clone版本库并变更目录到FastChat文件夹
git clone https://github.com/lm-sys/FastChat.gitcd FastChat

2. 安装Package
pip3 install --upgrade pip  # enable PEP 660 supportpip3 install -e .

权重

根据LLaMA模型的许可,权重将以delta的形式发布。只需将其加到原来的LLaMA权重上,就可以获得最终的Vicuna权重。

1. 按照huggingface上的说明,获得原始的LLaMA权重

2. 通过脚本,自动从团队的Hugging Face账户上下载delta权重

python3 -m fastchat.model.apply_delta \    --base /path/to/llama-13b \    --target /output/path/to/vicuna-13b \    --delta lmsys/vicuna-13b-delta-v0

使用
· 单个GPU
Vicuna-13B需要大约28GB的GPU显存。
python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights

· 多个GPU
如果没有足够的显存,则可以使用模型并行来聚合同一台机器上多个GPU的显存。
python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --num-gpus 2


· 仅用CPU
如果想在CPU上运行,则需要大约60GB的内存。
python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --device cpu

Web UI
· 启动控制器
python3 -m fastchat.serve.controller

· 启动model worker

python3 -m fastchat.serve.model_worker --model-path /path/to/vicuna/weights


当进程完成模型的加载后,会看到「Uvicorn running on ...」。

· 发送测试消息

python3 -m fastchat.serve.test_message --model-name vicuna-13b

· 启动gradio网络服务器
python3 -m fastchat.serve.gradio_web_server

现在,你就可以打开浏览器和模型聊天了。

微调

· 数据
Vicuna是通过使用从ShareGPT收集到的大约7万个用户共享的对话与公共API来微调一个LLaMA基础模型而创建的。
为了确保数据质量,团队将HTML转换回markdown,并过滤掉一些不合适或低质量的样本。此外,团队还将冗长的对话分成较小的片段,以符合模型的最大上下文长度。
· 代码和超参数
团队使用斯坦福大学Alpaca的代码对模型进行微调,并做了一些修改以支持梯度检查点和Flash注意力。此外,团队也使用与斯坦福Alpaca相似的超参数。
· 用SkyPilot在云服务上进行微调
SkyPilot是由加州大学伯克利分校建立的一个框架,可以在任何与一个云服务(AWS、GCP、Azure、Lambda等)上轻松、经济地运行ML工作负载。
安装说明:https://skypilot.readthedocs.io/en/latest/getting-started/installation.html
# Install skypilot from the master branchpip install git+https://github.com/skypilot-org/skypilot.git

Vicuna可以在8个拥有80GB内存的A100 GPU上进行训练。下面的命令将自动启动一个满足要求的节点,在上面设置并运行训练作业。
sky launch -c vicuna -s scripts/train-vicuna.yaml --env WANDB_API_KEY

对于Alpaca来说,训练作业会在具有4个A100-80GB GPU的单一节点上启动。
sky launch -c alpaca -s scripts/train-alpaca.yaml --env WANDB_API_KEY


· 使用本地GPU进行微调

Vicuna也可以用以下代码在8个A100 GPU上训练,显存为80GB。
如果要在更少的GPU上训练,则可以减少per_device_train_batch_size,并相应地增加gradient_accumulation_steps,以保持全局批大小不变。要设置环境,可以参见scripts/train-vicuna.yaml中的设置部分。
torchrun --nnodes=1 --nproc_per_node=8 --master_port=<your_random_port> \    fastchat/train/train_mem.py \    --model_name_or_path <path-to-llama-model-weight> \    --data_path <path-to-data> \    --bf16 True \    --output_dir ./checkpoints \    --num_train_epochs 3 \    --per_device_train_batch_size 4 \    --per_device_eval_batch_size 4 \    --gradient_accumulation_steps 1 \    --evaluation_strategy "no" \    --save_strategy "steps" \    --save_steps 1200 \    --save_total_limit 100 \    --learning_rate 2e-5 \    --weight_decay 0. \    --warmup_ratio 0.03 \    --lr_scheduler_type "cosine" \    --logging_steps 1 \    --fsdp "full_shard auto_wrap" \    --fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' \    --tf32 True \    --model_max_length 2048 \    --gradient_checkpointing True \    --lazy_preprocess True

参考资料:
https://github.com/lm-sys/FastChat/#fine-tuning





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」HuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香英特尔公布1万亿参数AI模型,比ChatGPT大570%Meta连夜加入AI大模型混战!用1/10参数量干过GPT-3,单个GPU就能跑剑桥华人团队搞出多模态医学大模型!单个消费级显卡就能部署,借鉴斯坦福「羊驼」而来无需豪掷数亿购买硬件,用笔记本就能运行650亿参数大模型:这位程序员仅用一晚上就做到了旅游記憶(完)UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源如果遇到这几种心理咨询师,快跑!快跑!快跑!再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数他发明苹果电脑,冒充美国国务卿,出演生活大爆炸…昨天,72岁的他二度受邀在UC伯克利发表毕业演讲!(附视频&演讲稿)0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5一行字实现3D换脸!UC伯克利提出「Chat-NeRF」,说句话完成大片级渲染GPT-3剪枝算法来了!无需微调,1750亿参数模型剪50%还提点50岁王菲牵手谢霆锋逛街,素颜尽显老态,网友:看起来不像情侣惊恐!UC伯克利分校有人自焚?!现场恐怖!多人受伤...加拿大名校亚裔学生宿舍猝死!多次报警无果!文革邓小平揭发出卖刘少奇彭真国产乾元2大模型来了:可编程金融文生图,120亿参数,超对称联手复旦出品左小青不再隐瞒,自曝和陈道明的关系,难怪跟富豪老公分手300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型李谷一:邓丽君不过就是一个小歌手,不值得我挂念LeCun转赞:在苹果M1/M2芯片上跑LLaMA!130亿参数模型仅需4GB内存成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉LeCun狂赞:600刀GPT-3.5平替! 斯坦福70亿参数「羊驼」爆火,LLaMA杀疯了这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3参数是 ChatGPT 的近 6 倍!英特尔公布 AI 大模型 Aurora genAI,具备 1 万亿参数单GPU实现99%ChatGPT性能,「原驼」火了:手机也能微调大模型用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。