SuperCLUE评测榜单

6月榜单由4部分组成：总排行榜、基础能力榜单、中文特性榜单、70亿参数量级榜单。

2023年6月SuperCLUE中文大模型总排行榜：

2023年6月SuperCLUE基础能力榜单：

2023年6月SuperCLUE中文特性榜单：

2023年6月SuperCLUE-70亿参数量级榜单：

SuperCLUE认为榜上有名的都是英雄。

温馨提醒，此榜单仅用于学术研究，不作为投资建议。

https://www.cluebenchmarks.com

https://github.com/CLUEbenchmark/SuperCLUE

SuperCLUE6月评测变动及后续计划

6月榜单有一些重要变动：

1. 增加了百度文心一言、百川智能baichuan-7B、智源研究院Aquila-7B、香港中文大学凤凰phoenix-7B这4个模型的评测。

具体模型来源及版本信息，请访问：

https://github.com/CLUEbenchmark/SuperCLUE

2. 6月评测数据集与5月评测数据集完全独立，数量级扩大至3714道测试题。

3. 新设立SuperCLUE-70亿参数量级榜单

后续计划：

1. CLUE团队会于本次榜单发布后一周内，公布一定数量的评测集。

2. 继续扩充测试题，后续每个月会持续使用新测试题进行模型测评。

2. 增加更丰富的多维度评测，如主观题、行业、特色任务等。

中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。

它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。

多个维度能力考察（3大类70+子能力）。着眼于综合评价大模型的能力，使其能全面地测试大模型的效果，又能考察模型在中文上特有任务的理解和积累。我们对能力进行了划分， SuperCLUE从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力，共七十余项任务。

SuperCLUE具有独特的优势

SuperCLUE数据集保密性高，减少模型训练数据混入评测数据的可能性。

SuperCLUE按照月考的形式进行评测，基于国内大模型研发机构的模型训练进度，模型月考与模型研发节奏保持同步。

通过自动化测评方式以相对客观形式测试不同模型的效果，可以一键对大模型进行测评。

选取了多个国内外有代表性的可用的模型进行测评，以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。

在通用人工智能发展的情况下，也提供了模型相对于人类效果的指标对比。

SuperCLUE不足与局限

客观考察的不足：我们以相对客观形式考察模型能力，但一些主观、开放性问题的模型能力的考察可能存在不足。
选取模型的不完全：我们测试了一部分模型，但还存在着更多的可用中文大模型。需要后续进一步添加并测试；有的模型由于没有广泛对外提供服务，我们没能获取到可用的测试版本。
选取的能力范围：我们尽可能的全面、综合衡量模型的多维度能力，但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。

SuperCLUE基准计划按照月度进行更新，会纳入更多可用中文大模型，欢迎大模型研发机构联系与交流，可在下方申请评测。

SuperCLUE榜单大模型评测申请：https://wj.qq.com/s2/12305633/a73d/

模型内测需求收集（非公开）：https://wj.qq.com/s2/12307825/2ae0/

Github地址：https://github.com/CLUEbenchmark/SuperCLUE

CLUE官网：https://www.cluebenchmarks.com