“我们坚持开源！”阿里云发布“地表最强”中文大模型：半年一迭代、性能翻倍？

2024-05-09 06:05

作者 | 褚杏娟高卫华

5 月 9 日，在通义大模型发布一周年之际，阿里云大模型生态迎来一次重大升级，主要有“四个最”：

通义千问 2.5 正式发布，“模型性能全面赶超 GPT-4 Turbo，成为地表最强中文大模型”；
Qwen1.5-110B 参数开源模型在多个基准测评收获最佳成绩，超越 Llama-3-70B，成为开源领域最强中文大模型；
ModelScope 魔搭成为中国最大的开源社区；
通义大模型通过阿里云服务企业超 9 万，成最受中国企业欢迎大模型。

同时，阿里云对通义大模型的品牌也进行了升级，正式将“通义千问 APP”更名为“通义 APP”，集成通义大模型全栈能力，免费为所有用户提供服务。阿里表示，通义 APP 将把通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力“All in one”，成为每个人的全能 AI 助手。

大模型系列更新

从初代模型升级至 2.5 版本的路，阿里云仅仅走了一年。

去年 10 月底，阿里云 CTO 周靖人在 2023 年云栖大会上，发布了参数量提升到千亿级别的通义千问 2.0。当时，阿里表示，目前通义千问的综合性能已经超过 GPT-3.5，相比 4 月发布的 1.0 版本，通义千问 2.0 在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。

如今，相比通义千问 2.1 版本，通义千问 2.5 的理解能力、逻辑推理、指令遵循、代码能力分别提升了 9%、16%、19%、10%。在权威基准 OpenCompass 上，通义千问 2.5 得分追平 GPT-4 Turbo，这也是该基准首次录得国产大模型取得如此出色的成绩。

在多模态模型和专有能力模型方面，通义千问视觉理解模型 Qwen-VL-Max 在多个多模态标准测试中超越 Gemini Ultra 和 GPT-4V，目前已在多家企业落地应用。

通义还发布了最新款开源模型：1100 亿参数的 Qwen1.5-110B，该模型在 MMLU、TheoremQA、GPQA 等基准测评中超越了 Meta 的 Llama-3-70B 模型。在 HuggingFace 推出的开源大模型排行榜 Open LLM Leaderboard 上，Qwen1.5-110B 冲上榜首。

“生态非常重要，我们会坚持开源体系、坚持我们的开源模式。”周靖人透露。

“现在已经是 2024 年了，我相信开源对整个全球技术领域的贡献是毋庸置疑的。”周靖人说道，“阿里云不是简简单单的开源，我们是要开源最强的模型。”

去年 8 月，通义宣布加入开源行列，随之启动马不停蹄的开源狂飙，沿着“全模态、全尺寸”开源路线陆续推出十多款模型。小尺寸模型如 0.5B、1.8B、4B、7B、14B，可便捷地在手机、PC 等端侧设备部署；大尺寸模型如 72B、110B 能支持企业级和科研级的应用，都曾登顶 Open LLM Leaderboard 榜首。

“阿里云是全球唯一一家既持续做模型开发，又做大量模型开局模式的企业。”周靖人表示，Llama 3 等在一定程度上把竞争拉得很高。坦诚地讲，不是所有闭源的公司都能做过开源模型。做闭源的，至少要能够超过开源模型水准，才能今天有机会参与。另一方面，实践中，大模型能力并不是越强越好，还要考虑成本等方面因素，所以阿里云希望把选择权给到企业和开发者。

通义千问代码大模型 CodeQwen1.5-7B 则是 HuggingFace 代码模型榜单 Big Code 的头名选手，具备优秀的代码生成能力、长序列建模能力、代码修改能力和 SQL 能力，还是国内用户规模第一的智能编码助手通义灵码的底层模型。

现场，阿里还宣布推出通义灵码的企业版，满足企业用户的定制化需求，帮助企业提升研发效率。

据介绍，通义灵码熟练掌握 Java、Python、Go、JavaScript、TypeScript、C/C++、C# 等 200 多种编程语言，可以辅助写代码、读代码、查 Bug、优化代码等。根据官方数据，2023 年 10 月发布至今，通义灵码的插件下载量已超 350 万，每日推荐代码超 3000 万次，被开发者采纳的代码超亿行。

“最受中国企业欢迎的大模型”

根据阿里云公布的最新数据，通义大模型通过阿里云服务企业超 9 万，通义开源模型累计下载量突破 700 万。通义落地应用进程加速，现已进入 PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域，成为最受中国企业欢迎的大模型。

周靖人表示，各行各业、各个企业都是特殊的，非常明确的就是让基础模型直接对接业务需求是很难的，因此现在的大模型落地一定要结合业务的场景。

小米旗下的人工智能助手“小爱同学”已与阿里云通义大模型达成合作，强化其在图片生成、图片理解等方面的多模态 AI 生成能力，并在小米汽车、手机等多类设备落地。此外，微博、众安保险、完美世界游戏等企业也宣布接入通义大模型，将大模型应用于社交媒体、保险、游戏等领域。

更早之前，新东方、同程旅行、长安汽车、西部机场集团、亲宝宝等企业也都与通义大模型达成合作。中国科学院国家天文台人工智能组基于通义千问开源模型开发了新一代天文大模型“星语 3.0”，这是大模型首次应用于天文观测领域；陕煤建新煤矿等十余座矿山推出由通义大模型支持的新型矿山重大风险识别处置系统，成为大模型在矿山场景的首次规模化落地。

截至目前，通义大模型通过阿里云服务企业超过 9 万、通过钉钉服务企业超过 220 万。与此同时，海内外大量中小企业和开发者以下载开源模型的方式使用通义，在 HuggingFace、魔搭 ModelScope 等开源社区，通义开源大模型的累计下载量超过了 700 万。

在阿里云体系里，把模型能力和业务场景结合起来的纽带就是百炼平台。本次大会上，百炼升级成为阿里云承载云 +AI 能力的重要平台，提供一站式、全托管的大模型定制与应用服务。开发者可通过“拖拉拽”5 分钟开发一款大模型应用，几小时“炼”出一个专属模型，把精力专注于应用创新。

周靖人介绍，当下企业应用大模型存在三种范式：一是对大模型开箱即用，二是对大模型进行微调和持续训练，三是基于模型开发应用，其中最典型的需求是 RAG，以企业数据对大模型进行知识增强。围绕这些需求，百炼打造了模型中心和应用中心，提供最丰富的模型和最易用的工具箱。

百炼提供了提示词模版、拥抱开源框架，包括提供开放灵活可配置的检索增强应用服务、提供实时 API 等，此外还提供可视化流程，提供微调和评测。

此外，百炼集成了上百款大模型，除了通义、Llama、ChatGLM 等系列，还托管百川等系列三方模型，覆盖国内外主流厂商，联动魔搭开源社区，同时支持企业上架通用或行业模型，给开发者提供足够多的模型选择。

结束语

问世一年多来，通义大模型发展出了文生图、智能编码、文档解析、音视频理解等能力，企业客户和开发者可以通过 API 调用、模型下载等方式接入通义，个人用户可从通义 APP、官网和小程序免费使用通义家族全栈服务。

未来，阿里云的 AI 之路会走得如何，我们也拭目以待。

内容推荐

探索智能科技的新边疆，《2024 年第 1 季度中国大模型季度监测报告》正式发布！OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来，正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中，AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号，回复「季度报告」领取。