对话阿里云 CTO 周靖人:AI 云基础设施如何做,为何难?
第一个提出 MaaS(模型即服务)的人,看到了什么?
文丨程曼祺
今年的阿里云云栖大会再次使用了 8 年前的主题:“计算,为了无法计算的价值。” 阿里云希望像 8 年前一样,重启高速增长。
2015 年,阿里云进入第一个快速增长期。一大批移动互联网公司涌现,阿里云为这些极速增长的创业公司提供了算力支持。很难想象,除了能快速扩容的云计算服务,还有什么基础设施能支撑这些活跃用户数一年翻数倍的共享经济或短视频应用。
阿里云由此成为中国云计算市场第一。2015 年和 2016 年,阿里云营收连续两年增长超 100%。阿里巴巴也首次在 2015 年的财报中单列云计算收入。之后 7 年里,阿里云收入从 2015 财年的近 13 亿元人民币增长至破千亿元人民币。
今天,阿里云看到了与 8 年前一样,甚至更大的机会。具有更强通用性和迁移能力的大模型引发新一轮技术变革,它要求对云计算体系的重构与创新。
阿里云对自己的定位是:成为 AI 时代的计算基础设施。2022 年 11 月的上一届云栖大会中,阿里云 CTO 周靖人第一个提出 MaaS(模型即服务)理念,并宣布上线模型社区魔搭(ModelScope),服务模型开发者。这之前,阿里云已陆续研发了语言模型 PLUG、AliceMind 和多模态大模型 M6 等模型,它们在 2022 年被整合为通义大模型系列。
一位阿里云人士说,周靖人 2021 年就开始在内部提 MaaS,并提出想做一个模型社区实现 MaaS,但当时阿里云内部不少人也不是特别理解这个概念和为什么要做这些事。
周靖人 2016 年加入阿里云,是阿里云大模型研发的重要发起人。获得美国哥伦比亚大学计算机博士学位后,周靖人加入微软,做到了研发合伙人。在阿里云,他历任首席科学家、达摩院智能计算实验室负责人,2022 年 12 月起担任阿里云 CTO。
自 2019 年开始投入大模型,周靖人逐渐看到,这一次 AI 变革和云计算进化是不可分割的整体。
“最初我们想把几百台(GPU)服务器连起来做训练都很难。云优化一点,大模型才能发展一点,模型发展到一定程度又遇到挑战,又需要云去升级。” 周靖人说,推动模型进步需要对云的各层级技术做升级和创新,涉及分布式框架设计、服务器设计、网络、存储、机器学习框架等方方面面,这是为什么能在 AI 时代能提供云计算服务的厂商会很少。
阿里巴巴集团 CEO 吴泳铭之前也判断,“AI 时代的云计算市场将更加集中,需要抢占先机”,这是阿里云积累多年的云计算技术体系的巨大机会。
今天的云栖大会中,阿里云宣布中国已有 “一半大模型公司跑在阿里云上”;上线一年多的魔搭社区已有 280 万开发者、2300 多个模型,累计模型下载量过亿。阿里云也展现了其智能时代云计算战略的更多拼图:
在算力服务层:升级人工智能平台 PAI,底层 AI 集群采用新一代网络架构,支持 10 万卡量级的集群可扩展规模,分布式训练加速比达到 96%。
在模型服务层:推出阿里云百炼等工具,可让企业客户快速结合自身数据集,基于通用模型训练出专属模型并开发应用。
在模型层:更新通义 2.0,发布一系列行业模型,并宣布 11 月将开源 720 亿参数版本的通义千问大模型。
在生态上:继续建设魔搭社区;推出了面向 4000 万高校注册学生的优惠计划 “云工开物”。
周靖人在 2023 年云栖大会中分享智能时代的云计算技术体系。
《晚点 LatePost》在本次云栖大会前对话周靖人,他谈了阿里云如何看待 AI 带来的云计算新机会,他们计划如何搭建新环境下的计算基础设施,以及在这次技术变革中的转型,到底会如何改变阿里云。
“阿里云的所有大模型,欢迎被集成”
《晚点》:现在已有不少中国大模型公司是你们的客户,如智谱 AI 和百川智能等。但阿里云自己也更新了通义 2.0 大模型,并发布了一系列基于通义的行业应用模型。为什么你们一边想做基础设施,一边又在自己做模型?
周靖人:我们云上有各种客户,表面看起来我们这也做、那也做,但这都对应着 AI 时代,云计算要服务的不同开发者和客户群体。
有一类客户,像你讲的百川,自己能开发通用模型,他需要的是 AI 基础设施;还有客户,他不见得要从头训练通用模型,但想结合行业知识训练模型,比如这次我们发布了一个工具 “阿里云百炼”,它能基于通用模型,让客户方便地结合自身数据集产生专属大模型;还有人是想直接调用已有的模型。
而且我们做大模型不是为了做端到端的超级应用,这次发布的模型大部分不是完整产品,我们的目的是给大家展示和开放能力,欢迎客户通过 API 方式把它们放到自己的系统里,真正解决业务问题。我们的所有模型都欢迎 “被集成”。
不仅是大模型,我们每一层能力,从训练模型的能力到微调、部署和调用的能力,都希望 “被集成”。阿里云要给每一类开发者和客户都提供支持。
《晚点》:既做算力基础设施又做模型不会和客户冲突吗?
周靖人:这不是竞争生态,大家还是理念上没跨过这个坎。你看 Snowflake、Databricks 和 MongoDB 都是在云上发展起来的 “云原生” 企业(上述公司的业务都与数据分析或数据库有关),Databricks 最大的用量就在 AWS 和微软 Azure 上,但不妨碍 AWS 和 Azure 也有自己的大数据与数据库产品。
在模型时代是一样的。云计算的生态不是 one size fits all(一套产品满足所有客户需求),有你没我、有我没你。市场里有不同定位的产品才是一个健康生态。
《晚点》:为帮助构建这个生态,阿里云做了什么?
周靖人:我们是中国大公司里唯一开源自研大模型的,之前开源了 70 亿和 140 亿参数的通义大模型,11 月还将开源 720 亿参数的版本。Meta 开源的 Llama 2 的最大版本是 700 亿,其实我们开源的模型在各种性能指标上都超过了 Llama 2,开发者里也有口碑。
另一件事是我们去年 8 月上线了模型社区 ModelScope 魔搭。短短一年多,魔搭已累积了上亿次模型下载量。这一定程度反映了我们的判断:更多开发者是希望把模型集成在自己的系统里。
这次我们还宣布了一个新计划 “云工开物”,给每个想尝试 AI 前沿技术的高校学生提供全年 300 元的阿里云产品免费额度,这相当于给每个学生配备了一台云服务器。我们还给学生提供全线产品的三折优惠,上限是 5000 元人民币,一些产品甚至低于成本价。对高校老师我们也有计划,让他们科研使用的部分能享受 5 折优惠。
云工开物不限制学生名额,只要你是学信网注册学生,大学生、大专生都可以申请。全国有四千多万注册学生,我们估计其中有 1/5 到 1/4 有需求。
这是阿里云有史以来的最大投入力度之一。我们希望有需要的开发者、学生、研究机构、创业公司和 ISV(独立软件开发商)都能有效把模型集成到自己的环境里,一起推动 AI 产业发展。
“AI 和云是不可分割的整体”
《晚点》:阿里云做大模型和 AI 基础设施的想法是怎么形成的?你们 2022 年第一次对外提 MaaS,同时整合了过去的模型并开始建设模型社区,为什么在当时有这些动作?
周靖人:我们最开始在 2022 年提 MaaS 时,包括做魔搭,大家可能没那么关注和理解,觉得这只是一个 another term。今年我们看到越来越多友商也在跟进。
其实到今天,全社会更多关注的还是大模型发布,大家不太注意的一点是:这背后是整个云系统的升级,是技术体系的竞争。
我们最开始做大模型时想用更多机器,把几百台服务器连起来。想法很好,系统做不了,你会发现各种问题:分布式编译、系统稳定性、网络拥塞等等。
幸运的是,这个过程中,云技术团队和模型团队一直紧密配合,遇到问题时云团队就去优化,优化一点,大模型就发展一点,模型发展到一定程度又遇到挑战,又需要云去升级,是交替往前走的过程。
所以在这次 AI 变革中,AI 和云是不可分割的整体。模型是对数据,甚至对算力的进一步抽象,它要求对算力体系做一系列重构和创新。这点全球都一样,OpenAI 融了这么多资,它还是要与微软 Azure 紧密合作,这是因为 AI 进化离不开云的支撑,它们是一个问题的上下部分。
阿里云过去积累了这么多年云计算技术,现在是 well positioned(处在好的位置),刚好能做好 AI 基础设施,支持上面更大、更繁荣的生态。
《晚点》:为什么这个基础设施是由云厂商提供?企业也可以买很多 GPU 和服务器,自己搞一个数据中心。
周靖人:很多人有一个误解,觉得只要有很多 GPU,就可以堆起来训练大模型,实际上这样做不成任务。你需要把成千上万个 GPU 连起来,像一台超级计算机那样工作,这是个非常复杂的分布式系统。
这涉及芯片的选择和适配、服务器设计、数据中心的分布式框架设计,还有网络设计:一个高效网络有规模限制,有 hierarchical(按等级划分的) 的网络架构,还要解决拥塞和稳定问题。网络之后还有存储,因为训练模型要清洗大量数据,过程中还要读取大量数据。
同时,当我们有了这么大规模的分布式系统,计算节点出故障是必然的,就要有容错功能。过去我们也跑坏了不少 GPU,发现了一些 bug,比如它的温度控制比较难。现在训练大模型短则几周,长则几个月,不能因为某个机器出问题,所有工作都重跑。
我们现在可以做到,即使某些计算模块出故障,仍然能实时调整,支持模型继续训练,我们也有一套在不同时间点做 checkpoint 的机制,这让我们的系统能支持 10 万卡级的 GPU 一起做训练。
这些能力都是需要长时间积累的、有挑战的技术。我们从服务器设计到网络设计都是自研的,甚至很多网络协议都是自己开发的。最后能提供这个复杂分布式系统服务的人会非常少。
《晚点》:有一种观点认为,未来只会剩下少数几个通用大模型。如果模型集中度足够高,开发模型的公司自己建立这套计算能力长期看可能更经济。
周靖人:不管未来通用大模型的格局是否集中,明确的趋势是,推理(即使用大模型时的计算过程)对计算的需求会越来越大,远大于训练。
推理比训练更离不开云。一是推理需求遍布全国甚至全球各地,因为你的用户可能有的在杭州、有的在北京。这需要低延时,需要就近的数据中心支持。只有大型云厂商才能提供遍布各地的算力服务。二是推理有用量波动,有些应用是早上用户多,有些是晚上。也只有云厂商才能处理这种波峰波谷的弹性需求。所以考虑到推理场景,AI 的发展就更和云密不可分了。
《晚点》:这些能力能被多快学习?在模型和算法层,很多开源项目和论文分享促进了技术扩散。
周靖人:每个云厂商做系统优化时都有一些独门绝技,这是每个公司的看家本领,是体现细致功底和见真章的地方,不经过长年累月的实践掌握不了。
比如网络结构设计就有很多课题:怎么用交换机?每一个交换机服务多少台服务器?每台服务器多少网卡?中间怎么连接?怎么解决数据延迟的损失?接下来还有怎么做执行:什么时候做模型并行?什么时候做数据并行?怎么让不同任务被分配、调度在不同模块上做联合训练?
要充分发挥 GPU 的能力,就是靠这些硬核的计算技术和经验。从去年提出 MaaS 后,我们就一直在围绕模型的整个生命周期重新设计云的技术体系,从最开始的数据收集、清洗,到模型的训练、验证、微调,最后到模型服务,涉及方方面面。这也是为什么现在客户在阿里云上训练大模型的整体效率会更高。
《晚点》:总结而言,阿里云要怎么做以适应 AI 新环境?你们这一年来发布了很多新产品和服务,为什么是这样的产品结构?
周靖人:我们认为 MaaS 的核心理念是,模型会成为人工智能时代一个重要的生产元素,整个计算体系会围绕模型重新升级。
阿里云要做的事有四层:
一是用 AI 升级既有云计算技术,把云更自动化地管理起来。过去云计算中的很多部署、运维、故障处理要靠人的经验,靠工程师轮班 24 小时盯着,现在要逐步换成 AI,比如引擎参数的调整、内存管理、网络拥塞的解决,这些决策和流程都可以引入 AI,实现 autonomous cloud(自动的云)。
云里也要写很多脚本,我们这次发布的通义灵码就能帮云计算工程师写代码,提高开发效率。另外大语言模型也能帮云的运维人员更高效地查找文档、维护工单和响应客服。相当于用 AI 和大模型把云本身的开发和运维都优化一遍。
第二是,我们从 IaaS 层到 PaaS 层的每一个计算产品都会为 AI 升级。比如我们面对 AI 推出了弹性计算实例(“实例” 是云计算中的管理单元,相当于一台虚拟机) ,开发了专门的存储产品;在网络上也做了大升级,实现了 AI 需要的低延时、高带宽网络。
第三层是做 AI 基础设施。阿里云有一个重要理念:数据中心就是一台计算机。这是指通过高效连结计算资源,让开发者感觉这就是一台机器,不用分心考虑底层问题,专注做应用开发。
这个理念在 AI 场景里更加重要,因为 AI 背后不单是 CPU,而是有各种芯片的异构架构,有的算力强,有的还要提升,我们是通过云的能力和高效网络把这么大规模的不同计算单元连接起来,形成一个强大的计算引擎。
最后一层就是我们自己的系列模型。当然再说一次,我们做模型最重要的目标不是做终端应用,是要服务好开发者。
“降门槛和降成本,相辅相成”
《晚点》:今年 8 月,阿里云组织了 “西溪论道”,汇集了国内多个大模型公司和应用公司,包括智谱、百川、澜舟和妙鸭等等,他们提了什么需求和反馈?
周靖人:他们关心刚才我们讲的——AI 基础设施能怎么帮他们更好地做模型和应用创新。当然,他们也在意价格。我们也会努力提供更好的性价比,很多时候性价比能反映技术实力。
《晚点》:阿里云的 AI 计算成本现在下降到什么程度了?
周靖人:降低整体成本和降低门槛相辅相成,一个是便宜,一个是容易,要一起说。
在降低门槛上,今年我们 PaaS 层几乎所有产品都提供了 serverless (一种能按需弹性伸缩、按需付费的软件系统架构)方案,在 AI 算力上我们也推出了 PAI 灵骏智算 serverless 化服务,是国内第一个做到的厂商。
过去大家要选固定的硬件,自己做一些维护,而 serverless 方案能提供开箱即用的体验,开发者不需要关心背后的硬件资源。
今年还我们推出了阿里云容器服务 ACS。之前我们更多不是容器,是虚拟机,它还是涉及要用什么 CPU,什么内存等一些中间管理。
ACS 现在支持所有主流语言,能让大家方便地编排业务体系,支持快速扩容和缩容,让客户能真正按需弹性使用资源。我们也提供了能一键式自动编排容器的工具(“Serverless Devs”)并推出了流程式开发服务(云工作流 “CloudFlow”) 。这都能大幅降低客户开发人员的复杂性。
价格方面,serverless 本身有很大价格优势,因为它是按需使用的,客户不需要提前购买资源做准备。我们也在不断推新产品,包括大数据、数据库都会推一些标准实例。其实从 4 月 11 日开始说降价后,我们一直在降价,调价频率呈上升趋势,不是一定要到大节点再说降价。
《晚点》:你认为做好 AI 基础设施会给阿里云带来哪些改变?比如公共云的业务占比会上升吗?或者对你们做政企业务有什么帮助吗?
周靖人:这次 AI 变革确实与公共云形态是有机融合的。首先模型训练需要大量算力,如果都分散建设会有浪费,公有云的弹性使用特点更能避免算力闲置。而且自己建数据中心,往往会遇到机房容量和供电等各种限制。
推理就更适合公有云。当进入大规模应用后,你需要使用全国乃至全球的算力,用量一天之内可能就有波峰波谷的变化,你也很难预估业务未来的增长,如果自建数据中心,高估或低估了业务需求都是问题,要么是买机器的速度赶不上发展,要么买太多都浪费了。大家必然会更依赖公有云。
至于具体行业的需求,我还没看到哪一个行业不会受这次 AI 变革的影响。政企领域也一样,我们已经看到了非常旺盛的需求。
《晚点》:这次 AI 变革的商业落地过程会像过去那样,被过高期待后又经历低谷吗?
周靖人:现在才刚开始,我们还没看到波峰。这次 AI 技术的变化不是解决了某个特定问题,而是通用 AI 的进步。
《晚点》:投资机构 a16z 曾估算,云计算公司最后会获得生成式人工智能行业 10%-20% 的收入,你怎么看云在 AI 时代的未来空间?
周靖人:很难预估,但我并不觉得这是无理之谈。我们拭目以待。
《晚点》:阿里云涉及复杂的技术体系,作为 CTO,你一定要想明白的事情是什么?
周靖人:对技术趋势的思考,和做好对应趋势的整体设计。首先确保阿里云处于领先位置,同时追求引领一些技术发展。
《晚点》:大模型之后,还有哪些新技术会对云计算产生很大影响?
周靖人:AI 本身还有很多工作,包括模型本身的进化,未来的多模态,如何能把模型应用起来。同时我们要关注云计算怎么支持行业,云计算本身怎么做转型以适应这次巨变。
过去十几年,无论是 ImageNet 还是 AlphaGo 都没办法与这次相比,这也许是一生中少有的计算技术革命。
题图:周靖人在 2023 年云栖大会上演讲。来源:阿里巴巴。
· FIN ·
微信扫码关注该文公众号作者