Redian新闻
>
通义千问登顶 Hugging Face 榜首,国产开源大模型赶超 Llama2

通义千问登顶 Hugging Face 榜首,国产开源大模型赶超 Llama2

科技

国产开源大模型,有戏!

作者丨张   进

编辑丨陈彩娴

上周五,全球最大的开源大模型社区Hugging Face公布了最新的开源大模型排行榜,阿里云通义千问Qwen-72B表现抢眼,以73.6的综合得分在所有预训练模型中排名第一,超越Llama2登顶榜首。

Hugging Face的开源大模型排行榜(Open LLM Leaderboard)是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型,测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大测评。

通义千问(Qwen-72B)是基于3Ttokens数据训练而成,同时也在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。

这是一个激动人心的时刻,从Llama2开源可商用,迄今5个月,国产大模型开源终于有一个能追上Llama2,大模型开源领域终于不再是Llama2独领风骚的时代,国产大模型开源也由此进入新时代。



1

多个单项成绩断层

领先其他开源模型

从Hugging Face官网公布的开源大模型排行榜(Open LLM Leaderboard)来看,他们是从ARC、HellaSwag、MMLU、TruthfulQA、Winogrande、GSM8K来对当前的开源大模型进行测试评估。

从上述截图我们可以看到通义千问Qwen-72B在多个测评中断层领先其他开源模型,其中MMLU、TruthfulQA、GSM8K三个维度的得分远超Llama-2-70B,分别得分为77.37、60.19、70.43,而Llama-2-70B的得分分别是69.83、44.94、54.06。

Qwen-72B得分最高的三大测评:MMLU考察模型的世界知识和语言能力,综合评测LLM的英文综合能力和知识能力;GSM8K考察的是模型的数学推理和计算关系大模型的数学推理能力;TruthfulQA考察模型的常识问答关系模型的常识能力、抗幻觉能力、问答能力等。

而在其他测评ARC、HellaSwag、Winogrande中,通义千问Qwen-72B与Llama-2-70B的差距仅有1、2分之差。

ARC考察模型阅读理解,这个能力关系大模型的语言理解、文档问答、工具调用能力;WinoGrande考察模型的语言推理、指代理解关系大模型的语言理解、语言推理、指代消歧等能力;Hellaswag考察模型的常识和语言推理关系模型的常识和语言推理能力。

最终Qwen-72B以73.6的综合得分在所有预训练模型中排名第一,在这之前,该榜单长期被Meta的Llama2占领。同时,除了阿里云开的通义千问、Meta的Llama2,榜单上还出现了幻方量化的deepseek-67B、零一万物的Yi-34B、百川的baichuan2-13B等中国开源大模型。

国产开源大模型势头正猛。

在评分之外,我们用一道高考数学题来粗略测试下Qwen-72B的表现,发现Qwen-72B解题思路清晰,计算结果准确:

同时,还问了它一道外国人看了头大、极具中国语言特色的复杂语义理解题,没想到Qwen-72B居然深刻理解了中国式的职场“拉扯”:

在复杂逻辑推理上,表现同样不错:

不仅如此,通义千问一经发布,在国外引起了广泛讨论,不少国内外开发者进行了测试和应用,实际使用体验在某些领域还超过了GPT-4:

为什么Qwen-72B能有这么出色的性能表现?

众所周知,一个优质的模型首先离不开团队强大的研发能力,通义千问团队在国内互联网公司中最早探索大模型,据称是阿里全力投入打造的团队;其次,通义千问背靠阿里云,在AI算力基础设施上拥有充足补给;还很重要的是,通义千问一直在奋力发展自己的开源生态,来自应用场景和开源社区的反馈能帮助研发团队不断优化基础模型。

具体到Qwen-72B模型的训练,通义千问利用多达43T的高质量数据进行训练,折合7Ttokens(目前训练完成3Ttokens,还在持续进行),涵盖近20种语言,覆盖网页、新闻、书籍、数学、代码及各个垂类领域,如金融、法律、医疗等等。

综合利用了dp、tp、pp、sp等方法进行大规模分布式并行训练,引入flashattentionv2等高效算子提升训练速度。借助阿里云人工智能平台PAI的拓扑感知调度机制,有效降低了大规模训练时通信成本,将训练速度提高30%。

在训练稳定性方面,模型训练过程中,通义千问团队通过PAI平台AiMaster管理组件监控作业的日志/报错/metric等信息,区分用户错误和系统错误,根据作业类型和容错场景提供管理能力和全链路自动化运维能力,自动剔除故障机器重启任务,使训练过程中人工干预重启频率由日降低到周。



2

Qwen-72B 上场

Llama2 走下神坛

从今年7月Meta宣布Llama2开源可商用以来,Llama2便一直站在全球大模型开源的神坛上,它更是国产大模型早期蓬勃发展的救星,元象唯思的创始人姚星曾对AI科技评论吐露真言,国内大部分大模型都是基于Llama开源来做的训练,他认为没有 Llama 开源,中国的大模型探索可能还要走很长一段路。

但这背后也要国内开发者承受许多“屈辱”,一位大模型公司的CEO曾无奈地告诉AI科技评论,Llama2的中文能力很差。

由于此,一些基于Llama2做垂直行业模型的厂商曾告诉我们,他们要用Llama2必须得先跟国内做Llama2中文化的公司合作,不能直接用Llama2去做训练。

而且Llama2对中国很不友好,在Llama2的开源协议里强调了English tended,其他地区illegal,意思就是中国拿它来做中文的大模型和应用是不合法的,但国内又必须得用。

因为在通义千问Qwen-72B发布之前,我们并没有能跟Llama2比肩的开源大模型,很长一段时间Llama2无与争锋。

由于各大模型厂商选择了“小参数用来开源,大参数拿来商业化”的策略,导致国内大模型开源一直停留在14B,所以国产开源大模型看似越来越卷,实则中国大模型市场还没有出现足以对标Llama-2-70B的优质开源模型。

但很多开发者曾对AI科技评论表示,虽然大模型开源非常丰富,但他们能真正用起来的不多。在一些领域,例如金融行业、医疗行业,以及一些科研机构,14B其实是远远不够的。

直到11月、12月,开源大模型Yi-34B、元象XVERSE-65B、Qwen-72B陆续抛出,国产开源似乎有了新进展,真正跨入了“追赶Llama2”的时代。

而Qwen-72B登顶Hugging Face榜首,超过Llama2这一事件,意味着国产大模型开源开始参与全球竞争,同时,Qwen-72B的出现填补了中国大模型开源长期被Llama2所占据的空白领域。

个人开发者、中国能源建设集团浙江省电力设计院有限公司系统室专工陶佳,他在想要做大模型应用时遇到的困境应该是国内大多数开发者都会遇到的:国外的模型,如闭源的如OpenAI能力是很强,但是API调用不便,而且我们这种B端用户更喜欢自己上手定制,API能做的事还是太少;开源的比如Llama2,但是中文能力一般。

他试了几款,试下来通义千问是最好的。“准确,而且‘手感’很好,没有那些稀奇古怪的 bug”,他说。

有鹿机器人公司正在研发第二代具身智能技术LPLM大模型,LPLM是融合了LLM大语言模型和物理世界大模型。在创始人、CEO陈俊波看来,LLM本身是一个偏慢速的、逻辑推理的、有比较完整的结构性思考的智能系统,而物理世界大模型是一个更偏实时响应、偏直觉的一套思维过程,比方说人类怎么去感知这个世界,怎么去对这个世界做预判,以及怎么去规划我们整个动作思维。LPLM融合了这两个系统,使它们能够很好地配合跟协作,能够从人类的高层的指令理解、到拆解、再到底层对物理世界进行理解和规划。

他们把市面上能找到的大模型都做过实验,最后选择了通义千问,创始人、CEO陈俊波认为原因主要有以下几点:

第一,它是目前至少在中文领域能找到的智能性表现最好的开源大模型之一。

第二,它提供了非常方便的工具链,可以在我们自己的数据上快速地去做finetune和各种各样的实验。

第三,它提供了一个特式量化的模型,量化前跟量化后基本上没有掉点,这对我们来说非常有吸引力,因为我们需要把它部署在一个嵌入式的设备上。

不仅如此,国外一些网友也对Qwen-72B等国产大模型表达了惊叹:



3

后记

通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio,至此,通义千问共开源了18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态,是业界首个“全尺寸、全模态”开源大模型。

阿里云CTO周靖人表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

开源、开放成为阿里在大模型领域频频提到的关键词,开源Qwen-72B就是其最好的态度展示。

Meta全球事务主管Nick Clegg曾这样评价开源:开源是消除AI相关恐惧的最佳解药,开源有助于Meta追赶竞争对手。

正如业内人普遍认同的,未来90%的企业会倾向于基于开源大模型发展,依托于开源生态。

如今,有了Qwen-72B的开源,国内大模型也能接上Llama2的步伐,允许各种规模的公司在Qwen-72B上改进这项技术,并在其上构建应用程序。

7月,Llama2开源蓬勃了全球大模型发展,12月,通义千问Qwen-72B开源,使得国产开发者不再“求外”。

本文作者长期跟踪大模型等AI领域的人物、公司故事与行业动态,欢迎添加作者微信 zzjj752254 互通有无。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
University presidents face backlash in antisemitism hearingAPAD: Fly in the face of danger转旧版jcrew 大衣和north face 羽绒服开源版GPTs人人免费用!Hugging Face发布定制个人助手,点2下轻松创建Hugging Face CEO预测:2024年AI行业六大巨变!讯飞星火V3.5整体接近GPT-4 Turbo!首个13B开源大模型发布,深度适配国产算力Hugging Face被限制访问红色日记 路线教育 7.27-31阿里云发布通义千问 2.0,性能超 GPT-3.5,加速追赶 GPT-4 | 新闻微软推出订阅服务Copilot Pro;腾讯人像生成器PhotoMaker开源;阿里云起诉山寨通义千问一审胜诉丨AIGC大事日报通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5阿里云通义千问上线图生视频功能;小冰宣布通过大模型备案;深圳前海深港AI算力中心正式启动丨AIGC大事日报720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑《又见洛阳》第48集说明和节选AI早知道|Hugging Face聊天助手上线 ;美图宣布2.85亿元收购站酷;Poe推出了Image Remix新功能官宣! OpenCSG 发布 StarNet Beta 版,打造中国版 Huggingface+,加快形成新质生产力无需训练实现价值观实时动态对齐:上交开源价值观对齐方法,闭源与开源大模型均适用无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用苹果iOS作出重大让步/俞敏洪称公司不应只依赖董宇辉/通义千问新模型性能比肩GPT-4V通义千问2.0来了!实测编程打败8成Python用户,阿里云大模型「全家桶」炸场上手通义千问2.0后,我才发现大模型的天敌是伍佰。千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%通义千问爆甩开源全家桶!最强720亿参数超车Llama 2,新上视觉模型看图直出代码Hugging Face最受欢迎15大AI机构出炉!清华第五,OpenAI第十,冠军竟是它?美中军方在悄悄重建沟通机制继续跟风”Fly in the face of danger“ChatGPT测试上传文件功能;百川推出192K长文本大模型;通义千问App安卓版上线丨AIGC大事日报秋日 风疑似iPhone16设计图曝光/通义千问上线春节新应用/蔚来阿尔卑斯首款车有望10月上市以色列总理《对哈玛斯的最后通牒》赏读Hugging Face 年度回顾:2023,开源大模型之年打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训Hugging Face剧透:阿里通义千问下一代Qwen2来了?李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源iPhone 16或全系告别静音拨片/微信称好友上限约1万个/阿里云开源通义千问720亿参数模型| 灵感周报我们是怎么一步步被Hugging Face收购的:开源库Gradio构建者分享背后故事Hugging Face宣布最受欢迎的AI机构;零一万物上线Yi-34B-Chat微调模型及量化版丨AIGC日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。