Vicuna：与ChatGPT 性能最相匹配的开源模型

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>公众号

科技

2023-04-05 09:04

前言

最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人员创建的 Vicuna-13B，通过在 ShareGPT 收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估，发现Vicuna-13B 的性能达到了ChatGPT 和 Bard 的 90% 以上，同时在 90% 情况下都优于 LLaMA 和 Alpaca 等其他模型。训练 Vicuna-13B 的费用约为 300 美元。训练和代码^[1]以及在线演示^[2]已公开。

Vicuna到底怎么样？

Vicuna在官网中通过和Alpaca、LLaMA、ChatGPT和Bard对比，然后通过GPT4当裁判来打出分数，具体如下。

可以看出，Vicuna的回答还是非常棒的，让GPT4来打分，Vicuna和ChatGPT是十分接近的，远远高于Alpaca和LLaMA。

如果大家想试试别的问题，可以自己去尝试^[3]哈。

然而，官方认为评估聊天机器人绝非易事，听过GPT4进行评估是一件十分不严格的事情，但是目前还是无法解决评估的问题，需要后续学者进行进一步探索。

在线demo

可以在线品尝：https://chat.lmsys.org/。

概述

图 2 介绍了整体工作流程。训练是在一天时间在 8 个 A100 上使用 PyTorch FSDP 完成的。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如表 1 所示。

训练

Vicuna 是通过使用从 ShareGPT.com 使用公共 API 收集的大约 7万用户共享对话微调 LLaMA 基础模型创建的。为了确保数据质量，将 HTML 转换回 markdown 并过滤掉一些不合适或低质量的样本。此外，将冗长的对话分成更小的部分，以适应模型的最大上下文长度。

训练方法建立在斯坦福alpaca的基础上，并进行了以下改进。

内存优化：为了使 Vicuna 能够理解长上下文，将最大上下文长度从alpaca 中的 512 扩展到 2048。还通过gradient checkpointing和flash attentio来解决内存压力。
多轮对话：调整训练损失考虑多轮对话，并仅根据聊天机器人的输出进行微调。
通过 Spot 实例降低成本：使用 SkyPilot 托管点来降低成本。该解决方案将 7B 模型的训练成本从 500 美元削减至 140 美元左右，将 13B 模型的训练成本从 1000 美元左右削减至 300 美元。