国产大模型进步有多快?我们用Z-Bench对10个模型进行了能力测评
如何测评
首先,在本次测评中,我们选取了 10 个模型进行测试:GPT-3.5、GPT-4、智谱 AI ChatGLM 初版及最新的 130B-v0.8 版、文心一言初版及 4 月 27 日更新版、商汤 SenseChat、阿里巴巴通义千问、科大讯飞星火以及复旦大学 MOSS(开源);
其次,与上次一样,我们依旧选择了从基础能力、涌现能力与垂直能力三个角度对模型进行了测评,题目共计 311 道:我们对其中的一些问题进行了优化,也基于大家看到的,在过去的两个月中模型明显的能力特点或进步,增加了一些可以体现模型新能力的题目,量不多,供大家参考;
最后,要声明的是,除部分游戏类(如二十问、是否黑白)题目外,所有题目均为单轮对话,鉴于语言模型的回答具有随机性的特点,我们均选取第一次答案作为正误或合理与否的判断标准。
测评结果
首先,给大家展示一个可以直观展示各个模型能力横向对比的条形图:
- ChatGLM 在基础能力和涌现能力部分的进步都很明显。更具体一些,模型在事实问答(9/19 vs 5/19)、逻辑推理(15/37 VS 6/37)、数学(7/44 VS 13/44)与坐标几何(3/4 VS 0/4)方面的进步最为明显,在对话能力(尤其是开放对话与角色扮演能力),大部分的文本处理能力(尤其是语言逻辑判断、语义判断与意图识别)和概念解释层面也有极大进步,但当涉及要点与关键词提取(也是文本处理能力的一部分)以及编程问题时,进步就不那么明显了;
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章