Redian新闻
>
国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此

国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此

科技
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

最强开源大模型,再次易主!

就在刚刚,阿里云通义千问又双叒开源了,并且直接开大:甩出了720亿参数版本——

在中国的开源大模型中,少见地直接对标最大号羊驼Llama2-70B。

此番登场,这个代号为Qwen-72B的模型在10个权威基准评测中刷新开源模型最优成绩

在部分测评,如中文任务C-Eval、CMMLU、Gaokao中,得分还超过了闭源的GPT-3.5和GPT-4。

但这,还不是阿里云这波开源的全部内容。

适用于边端设备的18亿参数版本Qwen-1.8B和音频大模型Qwen-Audio也被同时释出。

加上此前开源的Qwen-7B、Qwen-14B和视觉大模型Qwen-VL,阿里云通义全家桶主打一个“全尺寸”、“全模态”,可以说是非常全面了。

如此开源大手笔,不仅在国内,在国外也受到了广泛关注。

其中最受热议的Qwen-72B,我们也第一时间测试了一波。

720亿参数通义千问上手实测

Qwen-72B基于3T tokens的高质量数据训练,从此次公布的测评数据来看,性能相较于此前的开源版本全面升级:

英语任务上,Qwen-72B在MMLU基准测试中取得了开源模型最高分,超过了Llama2全系列。

中文任务上,Qwen-72B刷榜C-Eval、CMMLU、Gaokao等测试基准,得分超过GPT-4。

数学推理方面,Qwen-72B在GSM8K、MATH测评中获得了明显优于其他开源模型的高分。

代码能力方面,Qwen-72B在HumanEval、MBPP上亦有提升。

既然如此,我们就从复杂语义理解、数学以及逻辑推理这几个大模型的关键能力着手,来浅测一下720亿参数通义千问究竟能打不能打。

中文复杂语义理解

首先,来点一词多义,看看Qwen-72B是否能够清楚地判断出“一把把把把住”这句话里的弯弯绕绕。

这句话的意思并没有难住Qwen-72B,它甚至还分析出了句子里人物的情绪。但在具体分析每一个“把”字是什么意思时,似乎没有判断出“一把”是一个完整的词。

同样的问题抛给GPT-4,也是整体意思get到了,但细节分析上仍有瑕疵。

我们再测试一道选择题,列出几个看上去很像的词组,看看Qwen-72B能不能找出不同。

回答正确,72B选手顺利分析出了只有B选项中两个词组的意思是相反的。

看来复杂语义理解方面,Qwen-72B确实有两把刷子。

那么接下来,我们就进入经常让大模型们“翻车”的数学测试环节。

数学能力

话不多说,直接上道高考题,看看72B选手排列组合学得怎么样。

Bingo!思路没毛病,答案也正确。

如果在题目中设置一些小陷阱,比如单位换算呢?

依然没难住Qwen-72B。它还提醒我们这个问题出得并不严谨:你也没告诉我这池里有水没水、水满没满啊。

逻辑推理

数学语文都还挺好,那么Qwen-72B这个开源大模型,逻辑推理能力又如何?

我们继续测试。

第一道题是:

标清:高清:超清

A、亚音速:音速:超音速 B、厅级:市级:省级 C、迁怒:愤怒:暴怒 D、幽静:寂静:安静

Qwen-72B发现了这是一个类比推理题,只有A选项中,三个词之间的关系和“标清:高清:超清”是一致的。

再加大一点难度,让72B选手替我们找出“天堂之门”呢?

策略也没有问题:选择相反的那扇门就对了。

正常题目没难住,我们决定给72B选手一点脑筋急转弯的小震撼……

小明的妈妈有三个孩子,老大叫一明,老二叫二明,老三叫什么?

Qwen-72B这波可以说是稳稳拿捏了。

简单总结一下,在复杂语义理解、数学和逻辑推理能力方面,Qwen-72B确实有不错的表现。

有意思的一点是,研发团队提到,为了让Qwen-72B能被下游应用更简单地集成,他们还对Qwen-72B的指令遵循、工具使用等技能作了技术优化。

比如,搭载系统指令(System Prompt)能力,只需一句话,你就能让Qwen-72B扮演特定角色,成为你的定制化AI助手。

就像介样……

量:你是《原神》里的钟离,请模仿钟离的语气和我说话。

量:我怎么做才能一夜暴富?

钟离版千问:一夜暴富,是许多凡人心中的幻想。然而,生者的命运往往由无数偶然与必然交织而成,非一蹴而就之事。我虽拥有千年岁月的经验,但要论及一夜暴富,却是无从谈起。

在璃月港的民间传说中,或许有某些机缘巧合之下一夜致富的故事,但这多为人们茶余饭后的谈资,不可尽信。真正的财富,无论是物质上的还是精神上的,都需要通过不懈的努力和时间的积累才能获得。

若真希望增加收入,改善生活,倒是可以尝试努力工作、提高技艺,或寻找合法且适合自己能力的投资机会。此外,秉持诚实守信的原则,广结善缘,也是累积财富不可或缺的因素。不过,对于那些寻求捷径、投机取巧之人,终将付出相应的代价。

请记住,求财之心人皆有之,但切勿因此迷失自我,忘记了生命中真正重要的东西。

通义千问全家桶累计下载量超150万

看到这里,你会给通义千问720亿参数开源版本打几分?

值得一提的是,Qwen系列开源模型均可免费使用。自8月阿里云开源70亿参数模型Qwen-7B以来,通义系列开源大模型累计下载量已超过150万,正在形成类似Meta Llama系列的开源生态。

比如,华东理工大学X-D Lab,就基于开源的通义千问基座模型,开发了面向垂直行业的心理健康大模型MindChat、医疗健康大模型Sunsimiao、教育/考试大模型GradChat等。

开发团队透露,由于心理、医疗都是非常注重隐私的场景,因此选择开源模型做私有化部署成为必然的选择。

在模型选择方面,基于内部数据和benchmark的测评结果,开发团队认为通义千问系列在复杂逻辑推理方面表现出了很强的能力。在同样的对焦试验下,使用同样的方法,应用同样规模的数据,千问相较于其他中文开源模型存在优势。

目前,MindChat现在已经有超过20万人次的使用量,累计提供了超过100万次问答服务。

MindChat多轮对话

具身智能初创公司有鹿机器人,也选择了Qwen-7B作为路面清洁机器人的“大脑”。

这样一来,就可以通过“一号楼门前有一个可乐瓶,你过来扫一扫”这样的语音指令,来精准控制机器人干活。

有鹿机器人创始人、CEO陈俊波提到,通义千问系列开源模型的一大优势在于提供了方便的工具链,和几乎不影响性能的特式量化模型,这对于大模型与嵌入式设备的结合来说非常有吸引力。

目前,除了可以在魔搭社区直接体验通义千问系列模型效果,用户还可以从阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI也针对通义千问全系列模型做了深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

另外,通义千问开源全家桶同样受到了个人开发者的关注。

就职于中国能源建设集团浙江省电力设计院有限公司的陶佳,就选择透过通义千问来探索大模型应用。

一方面,选择开源模型,再结合自身的软硬件基础,可以用“很省钱的方式玩大模型”:

在家里买个服务器、扔三四块显卡上去,下载Qwen、让它在服务器上运行,再搞个FRP反向代理,从阿里云上买最便宜的30多块钱一个多月的服务就行,这样就能通过外网访问家里的服务器,在单位里也能用通义千问做实验。

另一方面,是因为通义千问“手感”很好,没有稀奇古怪的bug。

从具体的应用案例中不难看出,对于开发者而言,低成本、高可控、可定制等私有部署需要,催生了对开源大模型的需求。

但如何选择开源模型,仍有几个问题需要考虑:

  • 模型效果好不好

  • 是否能持续维护

  • 是否有生态

  • 性价比高不高

目前来看,作为国内唯一选择开源路线的大厂,阿里在这几个方面已经占得先机。包括智能数企服务公司瓴羊也表示,选择通义千问开发可视化数据平台Quick BI的重要原因之一,就是因为满足了性价比、快速部署以及可持续性几个条件。

最新开源礼包发布现场,阿里云CTO周靖人也再次强调了通义千问的开源决心:

开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”。

大模型风暴刮起一年,开源与闭源并举已经成为共识。

以GPT-4为代表的闭源大模型,率先在C端引爆热潮。但长期来看,企业级用户出于数据安全、行业定制,以及成本的考量,会更多地将目光投向开源大模型。

OpenAI创始成员Andrej Kaparthy在最近大火的大模型科普视频中就谈到了开源大模型如今的发展趋势:

闭源大模型展现出了更强的性能,但在灵活性和定制化方面,开源大模型有着显著优势,并且其生态正在迅速发展。

大语言模型已经变得像操作系统一样。开源大模型和闭源大模型,正在形成新的Windows/MacOS vs Linux格局。

图源Andrej Kaparthy

关键还是在于,“开源”选项加持,意味着在这个新时代里,不用完全把命运交到别人手中。

此番通义千问甩爆开源全家桶,不仅填补上了模型尺寸、模态的空白,也代表着一个信号:

需求驱动之下,开源大模型竞争之势愈卷愈烈。

而随着大模型发展重点从基础模型转向应用层,以技术实力、模型尺寸为基础的初始竞争格局逐渐明朗,生态之争,正在成为新的关键。

MEET 2024大会定档!

最新嘉宾阵容公布

12月14日,量子位「MEET2024智能未来大会」不容错过!点击报名线下现场

李培根院士、李开复博士及十余位AI各领域领先企业核心负责人已确认出席!戳此了解嘉宾详情:第二批嘉宾来袭!报名MEET2024的理由,今天又多了一个

< 左右滑动查看嘉宾海报 >

点击“预约”按钮,一键直达大会直播现场!


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完AMD王宏强:700亿参数大模型单个GPU部署,做好AI软件和生态实现“开箱即用”丨GACS 2023通义千问爆甩开源全家桶!最强720亿参数超车Llama 2,新上视觉模型看图直出代码猎户星空推出微调大模型,多项测评霸榜,开源免费!开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMaxAI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相红色日记 重要社论 12.19-20楔子病毒羔羊二十五章 傻子的幸福说驴道象首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型?浪潮信息发布“源 2.0”,千亿参数大模型开源可商用最新千亿大模型免费商用:1026亿参数,无需授权!诚邀开发者共同训练英伟达英特尔推改良版芯片重回中国市场?产业链人士称属实;阿里巴巴CEO吴泳铭:即将开源国内最大的720亿参数大模型丨AIGC日报最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑|开源免费图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作拆掉英伟达护城河,细节曝光!世界最快超算用3072块AMD GPU训完超万亿参数LLM8张3090,1天压缩万亿参数大模型!3.2TB骤降至160GB,压缩率高达20倍iPhone 16或全系告别静音拨片/微信称好友上限约1万个/阿里云开源通义千问720亿参数模型| 灵感周报讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!腾讯混元大模型再进化,文生图能力重磅上线,这里是一手实测大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型及时行乐碾压前辈!Meta发布“最大、性能最好”的开源Code Llama 70B,但开发者纷纷喊穷:玩不起!国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训壮观|史上最大邮轮的几宗“最”!大量一手实拍照片放出,皇家加勒比“海洋标志号”下水!昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。