Redian新闻
>
最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | CLUE中文语言理解测评基准
6月19日,SuperCLUE发布大模型6月榜单。
SuperCLUE: A Benchmark for Foundation Models in Chinese

SuperCLUE评测榜单

6月榜单由4部分组成:总排行榜、基础能力榜单、中文特性榜单、70亿参数量级榜单。
2023年6月SuperCLUE中文大模型总排行榜:
2023年6月SuperCLUE基础能力榜单:
2023年6月SuperCLUE中文特性榜单:
2023年6月SuperCLUE-70亿参数量级榜单:
SuperCLUE认为榜上有名的都是英雄。
温馨提醒,此榜单仅用于学术研究,不作为投资建议。
排行榜会定期更新,可访问:
https://www.cluebenchmarks.com
https://github.com/CLUEbenchmark/SuperCLUE

SuperCLUE6月评测变动及后续计划

6月榜单有一些重要变动:
1. 增加了百度文心一言、百川智能baichuan-7B、 智源研究院Aquila-7B、香港中文大学凤凰phoenix-7B这4个模型的评测。
具体模型来源及版本信息,请访问:
https://github.com/CLUEbenchmark/SuperCLUE
2. 6月评测数据集与5月评测数据集完全独立,数量级扩大至3714道测试题。
3. 新设立SuperCLUE-70亿参数量级榜单
后续计划:
1. CLUE团队会于本次榜单发布后一周内,公布一定数量的评测集。
2. 继续扩充测试题,后续每个月会持续使用新测试题进行模型测评。
2. 增加更丰富的多维度评测,如主观题、行业、特色任务等。

SuperCLUE是什么?

中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
多个维度能力考察(3大类70+子能力)。着眼于综合评价大模型的能力,使其能全面地测试大模型的效果,又能考察模型在中文上特有任务的理解和积累。我们对能力进行了划分, SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力,共七十余项任务。
SuperCLUE具有独特的优势
  • 保密性高:
SuperCLUE数据集保密性高,减少模型训练数据混入评测数据的可能性。
  • 月考制:
SuperCLUE按照月考的形式进行评测,基于国内大模型研发机构的模型训练进度,模型月考与模型研发节奏保持同步。
  • 自动测评:
通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。
  • 模型范围宽泛:
选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。
  • 人类基准:
在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。
SuperCLUE不足与局限
  1. 客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。
  2. 选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
  3. 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。

SuperCLUE基准计划按照月度进行更新,会纳入更多可用中文大模型,欢迎大模型研发机构联系与交流,可在下方申请评测。
SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/
模型内测需求收集(非公开):https://wj.qq.com/s2/12307825/2ae0/
Github地址:https://github.com/CLUEbenchmark/SuperCLUE
CLUE官网:https://www.cluebenchmarks.com
 (二维码失效可以在公众号后台回复SuperCLUE加入)
 

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
文革记忆 -- 红小兵追疯子面向真实用户需求的中文大语言模型评测第二期(LLMEVAL-2)发布用过钉钉的“/”之后,我感觉办公这件事又被简化了一次 | 大模型评测空巢日记摘要2005Chinese Climbers Scale Everest, Tragedy and Daring Rescue Ensue阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl百川智能发布开源中英文大模型,多个榜单评测成绩最佳PromptBench: 首个大语言模型提示鲁棒性的评测基准智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线川普或以独立人身份参选一张表,了解大奖的世界灵感中心、语音功能…升级后的文心一言APP比网页版更好用吗?|大模型评测辅导作业不头疼,ChatGPT VS 暑假作业|大模型评测上交清华提出中文大模型的知识评估基准C-Eval,辅助模型开发而非打榜【75k 开卡奖励】Barclays JetBlue Plus 信用卡直播带货7月榜单发布:云上珠宝登抖音榜首,蛋蛋快手销量第一[评测]ASUS Dual GeForce RTX 4060 Ti OC Edition 8GB GDDR6 评测首个二值量化评测基准来了,北航/NTU/ETH联合提出,论文登ICML 2023国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE三行代码调用PandaLM大模型自动实现保护隐私、可靠、可复现的大模型评估大模型评测,也太难了吧都快想退休了,才发现/觉得我入错行了!全新中文大模型多任务基准CMMLU:评估中文多任务语言理解能力国内大模型争霸赛,你最看好哪家?这是你心目中的大模型排名吗?[评测]ASUS Dual GeForce RTX 4070 12GB GDDR6X 评测[评测]ASUS ROG Hyperion 评测最新大学排名!中国高校第一城诞生[评测]ASUS ProArt GeForce RTX 4080 OC Edition 16GB GDDR6X 评测中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索[评测]ASUS ROG Strix GeForce RTX 4060 OC Edition 8GB GDDR6 评测[评测]ASUS ProArt GeForce RTX 4060 Ti OC Edition 16GB GDDR6 评测maxsun GeForce GTX 1660 Super Terminator Computer Video Graphics不对齐,反而性能爆表?130亿模型碾压650亿,Hugging Face大模型排行榜发布67个主题,11528 个问题,全新中文大模型多任务基准CMMLU发布Supercell也做“充值返现”了?深挖内容营销,推出UP主创作者学院
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。