Redian新闻
>
通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

公众号新闻

机器之心报道

编辑:泽南

超越 Claude、GPT-3.5,提升了多语言支持能力。


赶在春节前,通义千问大模型(Qwen)的 1.5 版上线了。天上午,新版本的消引发了 AI 社关注。


新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。


阿里通义千问团队表示,相关技术也已经上线到了通义千问官网和通义千问 App。


除此以外,今天 Qwen 1.5 的发布还有如下一些重点:


  • 支持 32K 上下文长度;

  • 开放了 Base + Chat 模型的 checkpoint;

  • 可与 Transformers 一起本地运行;

  • 同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。


借助更先进的大模型作为评委,通义千问团队在两个广泛使用的基准 MT-Bench 和 Alpaca-Eval 上对 Qwen1.5 进行了初步评估,评估结果如下:



尽管落后于 GPT-4-Turbo,但最大版本的 Qwen1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表现出了可观的效果,性能超过 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B,与最近热门的新模型 Mistral Medium 不相上下。


此外通义千问团队表示,虽然大模型判断的评分似乎与回答的长度有关,但人类观察结果表明 Qwen1.5 并没有因为产生过长的回答来影响评分。AlpacaEval 2.0 上 Qwen1.5-Chat 的平均长度为 1618,与 GPT-4 的长度一致,比 GPT-4-Turbo 短。


通义千问的开发者表示,最近几个月,他们一直在专注探索如何构建一个真正「卓越」的模型,并在此过程中不断提升开发者的使用体验。



相较于以往版本,本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。在序列长度方面,所有规模模型均已实现 32768 个 tokens 的上下文长度范围支持。同时,预训练 Base 模型的质量也有关键优化,有望在微调过程中为人们带来更佳体验。


基础能力


关于模型基础能力的评测,通义千问团队在 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基准数据集上对 Qwen1.5 进行了评估。



在不同模型尺寸下,Qwen1.5 都在评估基准中表现出强大的性能,72B 的版本在所有基准测试中都超越了 Llama2-70B,展示了其在语言理解、推理和数学方面的能力。


最近一段时间,小型模型的构建是业内热点之一,通义千问团队将模型参数小于 70 亿的 Qwen1.5 模型与社区中重要的小型模型进行了比较:



在参数规模低于 70 亿的范围内 Qwen1.5 与业界领先的小型模型相比具有很强的竞争力。


多语言能力


在来自欧洲、东亚和东南亚的 12 种不同语言上,通义千问团队评估了 Base 模型的多语言能力。从开源社区的公开数据集中,阿里研究者构建了如下表所示的评测集合,共涵盖四个不同的维度:考试、理解、翻译、数学。下表提供了每个测试集的详细信息,包括其评测配置、评价指标以及所涉及的具体语言种类。



详细的结果如下:



上述结果表明,Qwen1.5 Base 模型在 12 种不同语言的多语言能力方面表现出色,在学科知识、语言理解、翻译、数学等各个维度的评估中,均展现了不错的结果。更进一步地,在 Chat 模型的多语言能力上,可以观察到如下结果:



长序列


随着长序列理解的需求不断增加,阿里在新版本上提升了千问模型的相应能力,全系列 Qwen1.5 模型支持 32K tokens 的上下文。通义千问团队在 L-Eval 基准上评估了 Qwen1.5 模型的性能,该基准衡量了模型根据长上下文生成响应的能力。结果如下:



从结果来看,即使像 Qwen1.5-7B-Chat 这样的小规模模型,也能表现出与 GPT-3.5 可比较的性能,而最大的模型 Qwen1.5-72B-Chat 仅略微落后于 GPT4-32k。


值得一提的是,以上结果仅展示了 Qwen 1.5 在 32K tokens 长度下的效果,并不代表模型最大只能支持 32K 长度。开发者可以在 config.json 中,将 max_position_embedding 尝试修改为更大的值,观察模型在更长上下文理解场景下,是否可以实现令人满意的效果。


链接外部系统


如今,通用语言模型的一大魅力在于其与外部系统对接的潜在能力。RAG 作为一种在社区中快速兴起的任务,有效应对了大语言模型面临的一些典型挑战,如幻觉、无法获取实时更新或私有数据等问题。此外,语言模型在使用 API 和根据指令及示例编写代码方面,展现出了强大的能力。大模型能够使用代码解释器或扮演 AI 智能体,发挥出更为广阔的价值。


通义千问团队对 Qwen1.5 系列 Chat 模型在 RAG 任务上的端到端效果进行了评估。评测基于 RGB 测试集,是一个用于中英文 RAG 评估的集合:




然后,通义千问团队在 T-Eval 基准测试中评估了 Qwen1.5 作为通用智能体运行的能力。所有 Qwen1.5 模型都没有专门面向基准进行优化:




为了测试工具调用能力,阿里使用自身开源的评估基准测试模型正确选择、调用工具的能力,结果如下:



最后,由于 Python 代码解释器已成为高级 LLM 越来越强大的工具,通义千问团队还在之前开源的评估基准上评估了新模型利用这一工具的能力:



结果表明,较大的 Qwen1.5-Chat 模型通常优于较小的模型,其中 Qwen1.5-72B-Chat 接近 GPT-4 的工具使用性能。不过,在数学解题和可视化等代码解释器任务中,即使是最大的 Qwen1.5-72B-Chat 模型也会因编码能力而明显落后于 GPT-4。阿里表示,会在未来的版本中,在预训练和对齐过程中提高所有 Qwen 模型的编码能力。


Qwen1.5 与 HuggingFace transformers 代码库进行了集成。从 4.37.0 版本开始,开发者可以直接使用 transformers 库原生代码,而不加载任何自定义代码(指定 trust_remote_code 选项)来使用 Qwen1.5。


在开源生态上,阿里已经与 vLLM、SGLang(用于部署)、AutoAWQ、AutoGPTQ(用于量化)、Axolotl、LLaMA-Factory(用于微调)以及 llama.cpp(用于本地 LLM 推理)等框架合作,所有这些框架现在都支持 Qwen1.5。Qwen1.5 系列目前也可以在 Ollama 和 LMStudio 等平台上使用。


参考内容:

https://qwenlm.github.io/blog/qwen1.5/




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
疑似iPhone16设计图曝光/通义千问上线春节新应用/蔚来阿尔卑斯首款车有望10月上市苹果iOS作出重大让步/俞敏洪称公司不应只依赖董宇辉/通义千问新模型性能比肩GPT-4V多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告微软推出订阅服务Copilot Pro;腾讯人像生成器PhotoMaker开源;阿里云起诉山寨通义千问一审胜诉丨AIGC大事日报三个臭皮匠顶个诸葛亮?可能是真的,已证实混合多个小模型性能比肩GPT3.5大模型新王诞生!Claude 3首次超越GPT4小米汽车27分钟大定超50000台,雷军称发布会前一天降价3万/通义千问将接入多款Android手机/百度沈抖回应与苹果合作Hugging Face剧透:阿里通义千问下一代Qwen2来了?Claude 3全面超越GPT-4?我们上手实测了一波。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择阿里云通义千问上线图生视频功能;小冰宣布通过大模型备案;深圳前海深港AI算力中心正式启动丨AIGC大事日报《美人如玉》&《但求疼》个人感慨之七十五 钱和权华为相关人士辟谣P70预售,苹果或用百度人工智能,通义千问可处理千万字文档,微信回应朋友圈横线,这就是今天的其他大新闻!百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜用什么表真心?Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V鸟山明去世,《海贼王》《火影》作者悼念/折叠屏iPhone或于2026年推出/阿里称通义千问正加快追赶 GPT-4性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!通义千问登顶 Hugging Face 榜首,国产开源大模型赶超 Llama2消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型这个全面对标 OpenAI 的国产大模型,性能已达 90% GPT-46065 血壮山河之随枣会战 第三章 19王小川旗下百川智能千亿大模型Baichuan 3,中文评测超越GPT-4;美国启动国家AI计划推动开放式AI研究丨AIGC日报超越GPT-4,Claude 3超大杯成新王!突然爆火!超越GPT-4.0?这一产品引爆AI概念!飞行汽车延续涨势,昙花一现还是星辰大海...个人感慨之七十六 躲猫猫国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。