Llama-2首个全方位评测，国内外开源模型大比拼

公众号新闻

2023-07-24 06:07

允中发自凹非寺
量子位 | QbitAI

进入2023年7月，大语言模型（LLM）的发展进入了新阶段，开源成为一个火热的主题。

7月6日，上海人工智能实验室与商汤科技等联合发布了书生·浦语开源体系（https://github.com/InternLM），不仅开源了书生·浦语的轻量版本（InternLM-7B），还率先开源了从数据、训练到评测的全链条工具体系，并提供完全免费的商用许可；
7月14日，智谱科技开放ChatGLM2-6B免费商用；
7月19日，Meta开源了性能更强的Llama-2，也提供了更加宽松的商用许可。

面对语言模型的新一波开源浪潮，图灵奖得主Yann Lecun在推特上评价：

This is going to change the landscape of the LLM market.

可是，开源模型的表现是否可以当得起业界的热切期待？

我们在拿到Llama-2的系列开源模型后，通过OpenCompass对它进行了全方位的评测（https://opencompass.org.cn）。

Llama-2有多强

Llama-2相比Llama-1有不少技术层面的改进，从而带来了模型性能、推理效率以及安全性等方面的有效提升。具体而言，重要的改进有以下几点：

模型架构上使用Group-Query-Attention(GQA)来提高模型推理效率，语境长度从2K增加一倍到4K。
预训练语料从1.4T tokens增加到2T tokens。
在监督微调（SFT）阶段更加注重数据集质量，使用更少但质量更高的SFT数据相比使用百万量级的公开SFT数据，效果显著提升。
引入了三项安全训练技术Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增，仍难媲美ChatGPT

那么，Llama-2的整体能力究竟如何呢？

虽然在官方技术报告中已经展示了在20个左右数据集上的测试结果，但评价能力维度仍然有限，对比的模型也还不够全面。

这里我们借助开源评测工具OpenCompass，对Llama-2发布的各个模型在40多个评测集上进行了全方位的评测，从学科、语言、知识、理解、推理五大维度综合衡量大模型的能力。

结果可以总结为以下的雷达图：

下表列出Llama、Llama-2、以及ChatGPT在几个有代表性评测集上的表现：

更全面和详细的评测结果数字请参看https://opencompass.org.cn。

相比上代模型全面提升：

从综合能力角度，Llama-2-70B（绿色）相比于Llama-1-65B（紫色）更胜一筹，在语言、知识、推理、理解、学科等各个能力维度相比Llama-1都有明显提升。比如综合考试集MMLU上从63.71提升到69.75，GSM8K 上从54.51提升到63.46。

对话和基座模型基本持平：

经过微调和对齐的模型Llama-2-70B-Chat（黄色）相比基座模型Llama-2-70B（绿色），综合能力基本持平，在语言、推理和理解上相比基座有性能提升，在学科综合能力和知识能力上略有下降。比如翻译评测集Flores和代码评测集HumanEval上，Chat模型分别有超过40%和20%的相对提升，而在MMLU和TrivialQA上则有大约10%的相对降低。

离ChatGPT仍有较大差距：

相比ChatGPT-0613（蓝色），Llama-2-70B-Chat（黄色）仍需继续追赶，尤其在推理能力、理解能力、和学科综合能力上差距还比较明显。其中数学评测集MATH和代码评测集HumanEval的差距都超过了一倍。