国产大模型进步有多快？我们用Z-Bench对10个模型进行了能力测评

2023-05-13 04:05

在 Z-Bench v1.0 发布后的 2 个月里，国内的更多公司、研究机构与研究人员都投身到了大模型的研究行列，无论闭源还是开源，都在积极地为中文大模型的发展贡献着自己的力量。

其中，新晋开发者们不仅有像阿里巴巴（通义千问）、商汤科技（SenseChat）、科大讯飞（星火）这样的 AI 领域头部企业，也有 Minimax（应事 AI）这样的初创公司，还有复旦大学（MOSS）这样的学术机构；而我们上次测评过的已有选手，智谱 AI（ChatGLM）与百度（文心一言），也在积极改进并更新自己的模型。

于是，本周，基于 Z-Bench v1.0，我们增加了少量新题目，对新的模型进行了测评，同时也对两个月之前的测评结果进行了更新，详细表单如下：

在本文中，我们也将对我们的测评基本信息、结果与感受与大家分享，希望为大家了解中文模型带来一些帮助。

如何测评

首先，在本次测评中，我们选取了 10 个模型进行测试：GPT-3.5、GPT-4、智谱 AI ChatGLM 初版及最新的 130B-v0.8 版、文心一言初版及 4 月 27 日更新版、商汤 SenseChat、阿里巴巴通义千问、科大讯飞星火以及复旦大学 MOSS（开源）；

其次，与上次一样，我们依旧选择了从基础能力、涌现能力与垂直能力三个角度对模型进行了测评，题目共计 311 道：我们对其中的一些问题进行了优化，也基于大家看到的，在过去的两个月中模型明显的能力特点或进步，增加了一些可以体现模型新能力的题目，量不多，供大家参考；

最后，要声明的是，除部分游戏类（如二十问、是否黑白）题目外，所有题目均为单轮对话，鉴于语言模型的回答具有随机性的特点，我们均选取第一次答案作为正误或合理与否的判断标准。

测评结果

首先，给大家展示一个可以直观展示各个模型能力横向对比的条形图：

- 横轴是模型名称，以基础能力得分为序进行排列；

- 纵轴是回答正确率，其中橙色表示基础能力，黄色表示涌现能力，绿色代表垂直领域能力。

在测评的过程中，我们明显感受到了「国产」大模型能力在基础、涌现、垂直能力方面的全面进步，其中商汤、ChatGLM 130B v0.8 以及讯飞星火的基础能力部分回答正确率都已经到了 70%，虽然对比 GPT-4 的 95% 和 GPT-3.5 的 92% 尚有差距，但对比两个月前的结果，已经让我们对「国产」模型的未来有了更强的信心。

那么，「国产」大模型到底在哪些方面有了进步，又有哪些需要改进的地方呢？我们可以从两个角度进行分析：

第一，从单模型变化角度分析。正如上文所提到的，这次的测评中，有两位「老选手」 —— 百度文心一言与智谱 AI 的 ChatGLM，他们都在最初发布版本上进行了更新，就最终得分来看：

- ChatGLM 在基础能力和涌现能力部分的进步都很明显。更具体一些，模型在事实问答（9/19 vs 5/19）、逻辑推理（15/37 VS 6/37）、数学（7/44 VS 13/44）与坐标几何（3/4 VS 0/4）方面的进步最为明显，在对话能力（尤其是开放对话与角色扮演能力），大部分的文本处理能力（尤其是语言逻辑判断、语义判断与意图识别）和概念解释层面也有极大进步，但当涉及要点与关键词提取（也是文本处理能力的一部分）以及编程问题时，进步就不那么明显了；

- 文心一言的进步则主要体现在基础能力部分。其中事实问答（5/19 VS 9/19）能力的提升最为明显，代码能力与垂直领域知识问答也有部分提升，其他方面的能力进步并不明显。

第二，从新发布模型的能力进行分析。我们以表现最突出的四个模型，商汤 SenseChat、讯飞星火、Minimax 应事 AI 与阿里通义千问为例：

- 先说优点，几个模型的事实问答能力都已经到了不错的水平。在 19 个问题的测评中，阿里通义千与讯飞星火都得到了 12 分，商汤 SenseChat 11 分，Minimax 10 分。

- 但其他能力方面，几个模型都存在「偏科」现象：

✔ 商汤 SenseChat 全部回答错误的类别更少，能力更为全面，尤其值得一提的是，SenseChat 在对话与文本处理的多个细分类别中得到了满分；

✔ 阿里通义千问的常识与基础编程能力相较其他模型更好，但涉及数据、编码、符号相关的处理能力较差，对语言逻辑的判断能力还需进一步提升；

✔ 讯飞星火的基础数学能力（17/44）在其中是最为优秀的，但几何能力却是这四个模型中最差的，无论空间几何还是坐标几何，均全部回答错误；

✔ Minimax 的对话与文本处理能力已经很不错了，在分类、语法修正、情绪感知这三类中得到了满分，在语义识别与语言逻辑判断中的得分也较为优秀，但其文本处理能力也不是全面的，其中要点总结能力显然还需要提高。

- 最后说说缺点，国产中文模型的编程可用性还相对较低，数据与符号处理能力还有所欠缺，多语言处理能力较差，老生常谈的逻辑推理与数学能力也还有很大提升空间。

在本次测评中，有一个特殊的模型 MOSS —— 由复旦大学开发并完全开源的大语言模型。在这次的测评中，虽然 MOSS 的表现并不突出，但其综合能力已经超过了 3 月发布的百度文心一言（基础能力 44%:38%，涌现能力 15%:23%；垂直能力 31%:23%）。

另外，值得一提的是，ChatGLM 不仅在我们的测评中排名靠前，在前不久 UC Berkeley 团队领衔的 LMSYS 组织的 Chatbot Arena 测评中，开源的 ChatGLM-6B 英文表现也很优秀（测评结果链接我们也附在了文末）。海外开源模型蔚然成风的当下，我们希望听到更多来自中文开源社区的好消息！

最后，我们也真诚地期待，未来可以看到中国及更广泛的华人企业、研究机构与学者为我们在大模型领域带来更多惊喜。

🔗 LMSYS Chatbot Arena - https://lmsys.org/blog/2023-05-03-arena/