国内大模型争霸赛，你最看好哪家？这是你心目中的大模型排名吗？

公众号新闻

2023-05-19 06:05

知乎：绝密伏击
地址：https://www.zhihu.com/question/598051793/answer/3034073973
深度学习自然语言处理分享
进NLP群—>加入NLP交流群

OpenAI Vs Google

目前大模型 top2 应该就是 OpenAI 的 GPT-4，以及谷歌的PALM-2。这两家公司早已布局，而且技术实力雄厚。国内大模型和 GPT-4 相比，还是有比较大的差距。

但是国内的势头目前不错，百家齐鸣，还没有一家有绝对的优势。

让人头晕的排名

之前有媒体给出了目前国内Top-5的大模型公司，分别是：百度的文心一言、阿里的通义千问、腾讯的混元、华为的盘古以及360的智脑。

而最近，中文通用大模型基准（SuperCLUE）评测公布了最新结果，GPT-4 遥遥领先，而国内成绩最好的是科大讯飞的星火认知大模型。这里面文心一言居然排在了最后一名，甚至比ChatGLM-6B的得分还低，实在难以置信。

但是我又仔细看了一下这个评测。妈呀，评测集是SuperCLUE，而非SuperGLUE。

众所周知，在国际NLP领域，有大名鼎鼎的数据集 GLUE 和 SuperGLUE，非常权威，OpenAI、谷歌等的大模型都在上面评测，极大推动了 NLP 领域的发展。

这次这份 SuperCLUE 评测的发起方为 Chinese GLUE 组织（简称 CLUE），CLUE 是仿照 GLUE由国内民间组织的评测，权威度和影响力与 GLUE 相比差很远，其微信账号主体属性为个人。但这也迷惑了不少圈内人，GLUE和 CLUE 分不清楚，堪称李逵和李鬼。

还有一点存疑，评测榜单发布当天5月9日，其官网显示信息，中文基准测评成员顾问中排名第一的是崔一鸣，身份为学术顾问委员会主任，哈工大讯飞联合实验室（HFL）资深级研究员。而5月10日，官网已删除此条顾问的信息。

而001号创始会员徐亮，是会长，相当于这个榜单的实际负责人。昵称 brightmart，中文任务基准测评发起人。多个预训练模型中文版、文本分类和数据集开源项目作者。

徐亮还有另一个身份，在5月9日官网中显示，他是杭州实在智能算法专家，也就是元语智能的创始人，曾在2月份发布自称“国内首个功能对话大模型ChatYuan”，不仅无法测试，发布几天即被监管叫停。4月，又被报道套壳推出开源组件。有分析人士认为，不排除创业公司有融资压力，蹭热度吸引投资人关注。

该 SpuerClue 榜单发起方，001号顾问是讯飞身份背景、001号基准发起人是创业公司创始人。在榜单发布后，担心行业质疑其公平、公正，相关信息还被删除。这就有点不言而喻了。

仅用100道评测题目就出来了一份“权威报告”

最后来说下这个榜单本身，业内人士一眼就可以看出来，评测的很不合理，首先，没有公布评估数据，以及具体的评估方式。同时从它的公开表述，可推断总共题目就 100 道题目。这个题目量少到难以置信。专业人士可能有参与过，像国际权威 SuperGlue 榜单，题目一般都得有 2 万多道，离权威可是差了几万倍。况且，它的评测得分榜首都是人类，那这个评分的基准到底是什么？是否有很多主观性因素在里面？是否某些大模型提前在这个数据集上已经训练过？

任务设计太武断，所谓“通用”基准，是用以测试通用的人工认知能力的，那么我们自然希望，评测任务是参考了模型想要模拟的认知能力及相关理论，系统化地选择出来的。而实际上，我们观察到的则是，基准的作者们在选择任务的时候，更像是图方便、省事。以往，CLUE 中存在着部分数据集，一味考虑任务的复杂性，却在最起码的分布边界划分上（如NER各个类别的边界，如场所、景点类，组织机构及其子类），模糊不清，且数据的一致性无法保证。

要么别比，要比就来点正规的比赛。自己出题自己考，说不准还抢跑，自己还是评委，那这是欺不负了解真相的吃瓜群众。投机取巧，终皆散去。苦练内功，才是王道。