最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单
SuperCLUE评测榜单
排行榜会定期更新,可访问:
SuperCLUE6月评测变动及后续计划
SuperCLUE是什么?
保密性高:
月考制:
自动测评:
模型范围宽泛:
人类基准:
客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。 选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章