阿里云大模型的「阳谋」：全面发展不偏科，一力降十会

科技

2023-07-07 13:07

7 月 7 日，阿里云「AI 绘画创作」大模型通义万相亮相，在大模型领域又落一子。

作者 | 郑玄

阿里云的「通义大模型家族」，加入了新的成员。

7 月 7 日，上海 WAIC 世界人工智能大会期间，阿里云公布了新的 AI 绘画创作大模型通义万相，将大模型的模态从文本和语音延伸到图像，逐步向多模态模型靠近。

阿里云在会上介绍，通义万相拥有文生图和图生图能力，可辅助人类进行图片创作，大幅降低图片设计门槛，可应用于艺术设计、游戏和文创等应用场景，目前已开启定向邀测。该模型首批上线的功能具体包括以下三种：

文本生成图像。输入文字描述画面并选定创作风格（水彩、油画、中国画、二次元等），AI 即可自动生成创作图片。
相似图生成。提供一张参考图像，可获取内容、风格相似的 AI 画作。
风格迁移。上传原图和风格图，可自动把原图处理为指定的风格图。

输入一段提示词，通义万相生成的 AI 创作图片

时至今日，大模型将重塑软件服务行业已经成为行业共识。作为国内最大的云服务厂商，过去一段时间阿里云不断加大这一领域的技术和产品研发投入，阿里巴巴集团董事局主席、首席执行官张勇甚至亲自挂帅，担任阿里云智能集团的 CEO。

正如张勇在接受采访时所说，所有行业、所有应用、所有软件、所有服务，都值得基于新型人工智能技术、基于 AIGC 各方面技术支撑、大模型支撑重做一遍，这一定不仅能带来创新性的客户体验、客户服务的满足，也会让我们的生产范式、工作范式、生活范式发生很多变化。

从阿里云首次公开基础大模型通义千问，已经过去三个月的时间，阿里云自研大模型的布局，也已初见端倪。

苦练内功多年，

通义大模型家族开花结果

无论是 Transformer 还是 Diffusion，都为大模型的研发奠定了基础。两大主流框架的问世让大模型研发的门槛大幅降低，但在这之上的创新则是研发出差异化竞争优势大模型的关键。

根据阿里云介绍，通义万相是阿里在大模型领域苦练内功多年的产物，其基于阿里研发的组合式生成模型 Composer，后者是一种基于扩散模型的「组合式生成」框架，这一引领性的成果早在今年 2 月相就已发表，并吸引了国内外行业内人士的广泛关注。

其基本原理是：先将图像拆解成不同设计元素（配色、草图、布局、风格、语义、材质等），再使用 AI 模型将这些元素重新组合，中间使用的元素可以自由编辑。假设有 100 张图片，每张图片拆成 8 种元素，则全部元素的组合方式有 100 的 8 次方种之多，这被阿里云称为「组合爆炸」，可以给人类设计师生成图片提供极大的自由度和想象空间。

加上此前已经推出大语言模型「通义千问」和聚焦音频的大模型应用产品「通义听悟」，三个月的时间，阿里已经推出三个不同的大模型和产品，模态也已经从对话、文本等文字处理，延伸至音频、图像领域。

短时间内在产品层面取得进展的背后，是阿里在 NLP、计算机视觉等前沿科研领域多年的布局的结果。

极客公园梳理了阿里大模型的发展脉络。如下图所示，阿里最早于 2018 年底启动大模型研发，在 2022 年的 AIGC 热潮到来之前，阿里已经在超大模型、语言及多模态能力、低碳训练、平台化服务、落地应用等多个方面，做出了一定的投入和尝试。

阿里大模型发展时间线丨制作：极客公园

2022 年四季度，ChatGPT 发布后很快掀起了新的一轮 AI 热潮，阿里也加快了行动步伐，加速将实验室里的技术产品化，推入市场。

2023 年 4 月 7 日，阿里云正式推出大语言模型「通义千问」，该模型能够响应人类以自然语言方式提出的各类指令，拥有回答问题、创作文字、编写代码等能力。两个月后，阿里云上线了音视频 AI 产品「通义听悟」，后者是接入了通义千问大模型能力的应用产品，用户可以随时随地高效完成对音视频内容的转写、检索、摘要和整理，比如用大模型自动做笔记、整理访谈、提取 PPT 等。

研发基础大模型能力和开发产品的同时，阿里云也在加快生态的建设。阿里云透露，通义千问问世后不到三个月，目前已有 30 万企业用户申请接入，电力、通信、交通、金融、企服等多个行业的数字服务商，也成为通义千问的首批合作伙伴。

而随着新的模型和产品陆续发布，阿里云大模型的使用场景和覆盖行业也在进一步拓展。通义听悟提供的音频内容撰写、检索、摘要、整理功能，拓展了大模型在企业会议、访谈等场景的使用；而通义万相的文生图和图生图能力，补齐了阿里云大模型的关键拼图，未来可用于电商、艺术设计、游戏等更广泛的文创场景。

放眼全球，这样的全面布局也仅有寥寥数家。

百模之争，

阿里云软硬兼修

稳坐第一梯队

客观来说，不论是今天发布的通义万相，还是更早的通义千问、通义听悟，阿里云的这些大模型产品本身不是科技产业的新物种。在海外，此前已经有 Whisper、ChatGPT、Midjourney 等功能相近的大模型和应用产品。

国内在大模型领域起步较晚，过去几个月，国内科技公司、创业团队纷纷卷入这一赛道，仅仅上海世界人工智能大会几天，就有数十个大模型亮相，百模之争的盛况愈演愈烈，但现实仍然很骨感，目前在市面上能打的模型仍然寥寥可数，今天不论是基础的大模型能力，还是基于大模型的基础应用产品，全行业仍在极力追赶。

想要在这一领域实现赶超，不论是研发大模型还是开发优秀的应用，都不是「抄作业」这么简单。比如大模型的研发，就不仅仅是靠算法，或者靠财力简单堆 GPU 就能实现，这是囊括了底层算力、网络、存储、大数据、AI 框架、AI 模型等复杂技术的系统性工程，需要 AI-云计算的全栈技术能力。

而想要打造 ChatGPT 这样的杀手级应用，也不只是有个好的大模型就能解决所有问题。OpenAI 是通过数年努力，构建起了一条从上游数据、大模型，到产品、生态的完整产业链条。不论是在国内还是国外，发展大模型都需要对技术、产品和生态的全方位投入。

阿里云大模型战略的决策者，显然意识到了这个问题。过去数月，阿里云并没有尝试去打造一个博眼球的、与海外同行差异化的所谓「杀手级产品」。而是全方位地投入技术、算力，打磨算法和基础产品，发展技术和行业生态。「全面发展不偏科」，也将是接下来一段时间，阿里云在大模型领域坚持的基础战略。

这样的做法不可谓不「奢侈」。而能做到这一点，是因为阿里是全球少数在这几个领域都有深度布局、长久积累的科技公司之一。

AI 算法方面，阿里达摩院是国内最早启动大模型研究的机构之一。2018 年底便开始投入大模型研发，在中文大模型领域一直处于引领地位，2021 年阿里先后发布国内首个超百亿参数的多模态大模型及语言大模型，此后还训练实现了全球首个 10 万亿参数 AI 模型。2022 年，达摩院推出集大成的通义大模型，在语言及多模态能力、超大模型、通用统一模型等多个技术维度上，处于国内第一梯队。

在构建自身技术地基的同时，阿里也早早嗅到了 AI 生态的机遇，最早提出 MaaS 概念（模型即服务），并牵头建设了国内规模最大的 AI 模型服务社区「魔搭」，联动澜舟科技、深势科技、智谱 AI 等机构开源开放 AI 模型，帮助中小企业和开发者降低模型使用门槛，推动 AI 普惠。

当然在各类大模型遍地开花的背后，算力同样取到了决定性作用。不夸张地说，彻底引爆大模型的 ChatGPT 没有微软 Azure 强大的算力支撑，这一轮大模型的浪潮恐怕至少要往后推迟几年。

而在这项关键指标中，阿里云也是全球最领先的玩家之一，作为亚太第一、全球第三的云计算服务商，阿里云拥有国内最强的智能算力储备，可以源源不断地为大模型研发输血。根据官方的信息显示，阿里云的智算集群可支持最大十万卡 GPU 规模，承载多个万亿参数大模型同时在线训练。基于飞天智算的阿里云深度学习平台 PAI，可将计算资源利用率提高 3 倍以上，AI 训练效率提升 11 倍，推理效率提升 6 倍，深度支持了通义大模型的研发。

强大的云基础设施能力、深厚的大模型技术积淀，对大模型的研发来说缺一不可。多年的技术积累，是阿里参与本轮 AI 技术浪潮、持续开展技术长跑的重要保障。

显然，阿里决心已定，一次新的长跑已经开启。

*头图来源：阿里云

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你怎么看阿里云自研

大模型的战略？