通义千问登顶 Hugging Face 榜首，国产开源大模型赶超 Llama2

科技

2023-12-11 17:12

国产开源大模型，有戏！

作者丨张进

编辑丨陈彩娴

上周五，全球最大的开源大模型社区Hugging Face公布了最新的开源大模型排行榜，阿里云通义千问Qwen-72B表现抢眼，以73.6的综合得分在所有预训练模型中排名第一，超越Llama2登顶榜首。

Hugging Face的开源大模型排行榜（Open LLM Leaderboard）是目前大模型领域最具权威性的榜单，收录了全球上百个开源大模型，测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大测评。

通义千问（Qwen-72B）是基于3Ttokens数据训练而成，同时也在10个权威基准测评中夺得开源模型最优成绩，在部分测评中超越闭源的GPT-3.5和GPT-4。

这是一个激动人心的时刻，从Llama2开源可商用，迄今5个月，国产大模型开源终于有一个能追上Llama2，大模型开源领域终于不再是Llama2独领风骚的时代，国产大模型开源也由此进入新时代。

多个单项成绩断层

领先其他开源模型

从Hugging Face官网公布的开源大模型排行榜（Open LLM Leaderboard）来看，他们是从ARC、HellaSwag、MMLU、TruthfulQA、Winogrande、GSM8K来对当前的开源大模型进行测试评估。

从上述截图我们可以看到通义千问Qwen-72B在多个测评中断层领先其他开源模型，其中MMLU、TruthfulQA、GSM8K三个维度的得分远超Llama-2-70B，分别得分为77.37、60.19、70.43，而Llama-2-70B的得分分别是69.83、44.94、54.06。

Qwen-72B得分最高的三大测评：MMLU考察模型的世界知识和语言能力，综合评测LLM的英文综合能力和知识能力；GSM8K考察的是模型的数学推理和计算关系大模型的数学推理能力；TruthfulQA考察模型的常识问答关系模型的常识能力、抗幻觉能力、问答能力等。

而在其他测评ARC、HellaSwag、Winogrande中，通义千问Qwen-72B与Llama-2-70B的差距仅有1、2分之差。

ARC考察模型阅读理解，这个能力关系大模型的语言理解、文档问答、工具调用能力；WinoGrande考察模型的语言推理、指代理解关系大模型的语言理解、语言推理、指代消歧等能力；Hellaswag考察模型的常识和语言推理关系模型的常识和语言推理能力。

最终Qwen-72B以73.6的综合得分在所有预训练模型中排名第一，在这之前，该榜单长期被Meta的Llama2占领。同时，除了阿里云开的通义千问、Meta的Llama2，榜单上还出现了幻方量化的deepseek-67B、零一万物的Yi-34B、百川的baichuan2-13B等中国开源大模型。

国产开源大模型势头正猛。

在评分之外，我们用一道高考数学题来粗略测试下Qwen-72B的表现，发现Qwen-72B解题思路清晰，计算结果准确:

同时，还问了它一道外国人看了头大、极具中国语言特色的复杂语义理解题，没想到Qwen-72B居然深刻理解了中国式的职场“拉扯”：

在复杂逻辑推理上，表现同样不错：

不仅如此，通义千问一经发布，在国外引起了广泛讨论，不少国内外开发者进行了测试和应用，实际使用体验在某些领域还超过了GPT-4：

为什么Qwen-72B能有这么出色的性能表现？

众所周知，一个优质的模型首先离不开团队强大的研发能力，通义千问团队在国内互联网公司中最早探索大模型，据称是阿里全力投入打造的团队；其次，通义千问背靠阿里云，在AI算力基础设施上拥有充足补给；还很重要的是，通义千问一直在奋力发展自己的开源生态，来自应用场景和开源社区的反馈能帮助研发团队不断优化基础模型。

具体到Qwen-72B模型的训练，通义千问利用多达43T的高质量数据进行训练，折合7Ttokens（目前训练完成3Ttokens，还在持续进行），涵盖近20种语言，覆盖网页、新闻、书籍、数学、代码及各个垂类领域，如金融、法律、医疗等等。

综合利用了dp、tp、pp、sp等方法进行大规模分布式并行训练，引入flashattentionv2等高效算子提升训练速度。借助阿里云人工智能平台PAI的拓扑感知调度机制，有效降低了大规模训练时通信成本，将训练速度提高30%。

在训练稳定性方面，模型训练过程中，通义千问团队通过PAI平台AiMaster管理组件监控作业的日志/报错/metric等信息，区分用户错误和系统错误，根据作业类型和容错场景提供管理能力和全链路自动化运维能力，自动剔除故障机器重启任务，使训练过程中人工干预重启频率由日降低到周。

Qwen-72B 上场

Llama2 走下神坛

从今年7月Meta宣布Llama2开源可商用以来，Llama2便一直站在全球大模型开源的神坛上，它更是国产大模型早期蓬勃发展的救星，元象唯思的创始人姚星曾对AI科技评论吐露真言，国内大部分大模型都是基于Llama开源来做的训练，他认为没有 Llama 开源，中国的大模型探索可能还要走很长一段路。

但这背后也要国内开发者承受许多“屈辱”，一位大模型公司的CEO曾无奈地告诉AI科技评论，Llama2的中文能力很差。

由于此，一些基于Llama2做垂直行业模型的厂商曾告诉我们，他们要用Llama2必须得先跟国内做Llama2中文化的公司合作，不能直接用Llama2去做训练。

而且Llama2对中国很不友好，在Llama2的开源协议里强调了English tended，其他地区illegal，意思就是中国拿它来做中文的大模型和应用是不合法的，但国内又必须得用。

因为在通义千问Qwen-72B发布之前，我们并没有能跟Llama2比肩的开源大模型，很长一段时间Llama2无与争锋。

由于各大模型厂商选择了“小参数用来开源，大参数拿来商业化”的策略，导致国内大模型开源一直停留在14B，所以国产开源大模型看似越来越卷，实则中国大模型市场还没有出现足以对标Llama-2-70B的优质开源模型。

但很多开发者曾对AI科技评论表示，虽然大模型开源非常丰富，但他们能真正用起来的不多。在一些领域，例如金融行业、医疗行业，以及一些科研机构，14B其实是远远不够的。

直到11月、12月，开源大模型Yi-34B、元象XVERSE-65B、Qwen-72B陆续抛出，国产开源似乎有了新进展，真正跨入了“追赶Llama2”的时代。

而Qwen-72B登顶Hugging Face榜首，超过Llama2这一事件，意味着国产大模型开源开始参与全球竞争，同时，Qwen-72B的出现填补了中国大模型开源长期被Llama2所占据的空白领域。

个人开发者、中国能源建设集团浙江省电力设计院有限公司系统室专工陶佳，他在想要做大模型应用时遇到的困境应该是国内大多数开发者都会遇到的：国外的模型，如闭源的如OpenAI能力是很强，但是API调用不便，而且我们这种B端用户更喜欢自己上手定制，API能做的事还是太少；开源的比如Llama2，但是中文能力一般。

他试了几款，试下来通义千问是最好的。“准确，而且‘手感’很好，没有那些稀奇古怪的 bug”，他说。

有鹿机器人公司正在研发第二代具身智能技术LPLM大模型，LPLM是融合了LLM大语言模型和物理世界大模型。在创始人、CEO陈俊波看来，LLM本身是一个偏慢速的、逻辑推理的、有比较完整的结构性思考的智能系统，而物理世界大模型是一个更偏实时响应、偏直觉的一套思维过程，比方说人类怎么去感知这个世界，怎么去对这个世界做预判，以及怎么去规划我们整个动作思维。LPLM融合了这两个系统，使它们能够很好地配合跟协作，能够从人类的高层的指令理解、到拆解、再到底层对物理世界进行理解和规划。

他们把市面上能找到的大模型都做过实验，最后选择了通义千问，创始人、CEO陈俊波认为原因主要有以下几点：

第一，它是目前至少在中文领域能找到的智能性表现最好的开源大模型之一。

第二，它提供了非常方便的工具链，可以在我们自己的数据上快速地去做finetune和各种各样的实验。

第三，它提供了一个特式量化的模型，量化前跟量化后基本上没有掉点，这对我们来说非常有吸引力，因为我们需要把它部署在一个嵌入式的设备上。

不仅如此，国外一些网友也对Qwen-72B等国产大模型表达了惊叹：