微软自研芯片靴子落地,黄仁勋要打造“AI界台积电”。芯东西11月16日报道,今日凌晨,微软在年度IT专业人士和开发者大会Ignite上推出两款自研芯片——云端AI芯片微软Azure Maia 100、服务器CPU微软Azure Cobalt 100。Maia 100是微软为微软云中大语言模型训练和推理而设计的第一款人工智能(AI)芯片,采用台积电5nm工艺,拥有1050亿颗晶体管,针对AI和生成式AI进行了优化,支持微软首次实现的低于8位数据类型(MX数据类型)。微软已经在用搜索引擎Bing和Office AI产品测试该芯片。Cobalt 100是微软为微软云定制开发的第一款CPU,也是微软打造的第一款完整的液冷服务器CPU,采用Arm Neoverse CSS设计、128核。微软还定制设计了一个AI端到端机架,并搭配了一个“助手”液冷器,原理类似于汽车散热器。▲微软现场展示AI端到端机架
两款芯片明年年初开始在微软数据中心推出,最初为微软的Copilot或Azure OpenAI Service等服务提供动力。微软已经在设计第二代版本的Azure Maia AI芯片和Cobalt CPU系列。这些芯片代表了微软交付基础设施系统的最后一块拼图——从芯片、软件和服务器到机架和冷却系统的一切,微软这些系统都是由上到下设计的,可以根据内部和客户的工作负载进行优化。值得一提的是,生成式AI超级独角兽OpenAI率先试用了Maia 100芯片。该芯片正在GPT-3.5 Turbo上进行测试。OpenAI首席执行官Sam Altman说:“当微软第一次分享他们的Maia芯片设计时,我们很兴奋,我们一起努力改进并在我们的模型上测试它。Azure的端到端AI架构现在与Maia一起优化到芯片,为训练更有能力的模型铺平了道路,并使这些模型对我们的客户来说更便宜。”除了发布自研芯片外,微软宣布将扩大与英伟达、AMD两家芯片巨头在AI加速计算方面的合作伙伴关系,为客户提供更多价格和性能的选择。微软发布了针对英伟达H100 GPU的全新NC H100 v5虚拟机系列预览,还将在明年增加最新的英伟达H200 GPU,以支持更大的模型推理;并宣布将在Azure中加入AMD MI300X加速虚拟机,旨在加速AI工作负载处理,用于AI模型训练和生成式推理。英伟达创始人兼CEO黄仁勋专程来到现场,宣布推出一项AI代工服务,可以帮助部署在微软Azure上的企业和初创公司,构建自己的定制大语言模型。▲纳德拉与黄仁勋握手
当微软CEO纳德拉提问未来AI创新的发展方向是什么,黄仁勋回答说:“生成式AI是计算史上最重要的平台转型。在过去40年里,从来没有发生过如此大的事情。到目前为止,它比个人电脑更大、比手机更大,而且将比互联网更大。”
微软的雷德蒙德园区隐藏着一个实验室,这里摆满了探索数字时代的基本组成部分——硅。多年以来,微软工程师一直通过多步骤过程,对硅进行细致的测试,秘密改进其方法。▲在微软雷德蒙德实验室里,一位系统级测试人员正在模拟芯片在微软数据中心内的运行情况。这台机器在真实世界的条件下严格评估每个芯片,以确保它符合性能和可靠性标准。(图源:微软)
微软认为增加自研芯片是一种确保每个元素都适合微软云和AI工作负载的方式。这些芯片将安装在定制的服务器主板上、放在定制的机架上,随着机架被安装到现有的微软数据中心中。AI芯片微软Azure Maia 100旨在实现硬件的绝对最大利用率,将为运行在微软Azure上的一些最大的内部AI工作负载提供动力。领导Azure Maia团队的微软技术人员Brian Harry说,Maia 100专门为Azure硬件堆栈而设计,这种垂直整合——将芯片设计与考虑到微软工作负载而设计的更大AI基础设施相结合——可以在性能和效率方面产生巨大的收益。Cobalt 100 CPU是一款128核服务器处理器,采用Arm Neoverse CSS设计构建。据微软硬件产品开发副总裁Wes McCulloug分享,这是一种经过优化的低功耗芯片设计,可以在云原生产品中提供更高的效率和性能。选用Arm技术是微软可持续发展目标的一个关键因素,其目标是优化整个数据中心的“每瓦性能”,这本质上意味着为每单位消耗的能量获得更多的计算能力。“初步测试表明,我们的性能比现有商用Arm服务器的数据中心性能提高40%。”微软Azure硬件系统和基础设施副总裁Rani Borkar说。▲首批由微软Azure Cobalt 100 CPU驱动的服务器,位于华盛顿州昆西的一个数据中心内。(图源:微软)
“我们正在最有效地利用硅上的晶体管。将我们所有数据中心的服务器的效率提升相乘,这是一个相当大的数字。”McCulloug谈道。
虽然微软为其Xbox和HoloLens设备研发芯片已有十多年,但它为Azure创建定制芯片的努力从2020年才开始。Azure硬件系统和基础设施团队的合作伙伴项目经理Pat Stemen称,2016年前,微软云的大多数层都是现成的,随后微软开始定制服务器和机架,降低了成本,并为客户提供了更一致的体验。随着时间的推移,硅成了主要的缺失部分。自研定制芯片的测试过程包括确定每个芯片在不同频率、温度和功率条件下的峰值性能,更重要的是在微软真实数据中心的相同条件和配置下测试每个芯片。▲在微软雷德蒙德实验室里,芯片正在进行系统级测试,在安装到服务器上之前,模拟它们在实际生产条件下的使用情况。(图源:微软)
今天公布的芯片架构不仅可以提高冷却效率,还能优化其当前数据中心资产的使用,并在现有范围内最大限度地提高服务器容量。例如,不存在机架来容纳Maia 100服务器主板的独特需求,所以微软从零做出更宽的数据中心机架。这种扩展的设计为电源和网络电缆提供了充足的空间,能满足AI工作负载的独特需求。▲在微软雷德蒙德实验室的一个热室里,为Maia 100 AI芯片和它的“伙伴”定制的机架。在处理AI工作负载的计算需求时,新“助手”在机架之间循环液体来冷却芯片。(图源:微软)
大型AI任务需要大量的计算、消耗更多的电力。传统空气冷却方法无法满足这些需求,液冷已成为应对这些热挑战的首选方案。但微软目前的数据中心并不是为大型液冷机器设计的。因此它开发了一个“助手”,放在Maia 100机架旁边。这些“助手”的工作原理有点像汽车的散热器。冷液从侧板流向附着在Maia 100芯片表面的冷板。每个板都有通道,液体通过这些通道循环以吸收和输送热量。这些热量会流到副翼,副翼会从液体中去除热量,并将其送回机架以吸收更多的热量,以此类推。▲冷板附着在Maia 100 AI芯片的表面。(图源:微软)
McCullough强调说,机架和“助手”的串联设计强调了基础设施系统方法的价值。通过控制每一个方面——从Cobalt 100芯片的低功耗理念到数据中心冷却的复杂性——微软可以协调每个组件之间的和谐相互作用,确保在减少环境影响方面,整体确实大于各部分的总和。微软已经与行业合作伙伴分享了其定制机架的设计经验,无论内部安装的是什么芯片,微软都可以使用这些经验。“我们建造的所有东西,无论是基础设施、软件还是固件,我们都可以利用我们自己的芯片,或是我们行业合作伙伴的芯片。”McCullough分享道,“这是客户做出的选择,我们正努力为他们提供最好的选择,无论是性能、成本还是他们关心的任何其他方面。”Stemen说,微软的使命很明确:优化其技术堆栈的每一层,从核心芯片到终端服务。“微软的创新将进一步深入到芯片工作中,以确保我们客户在Azure上的工作负载的未来,优先考虑性能、能效和成本。”他谈道,“我们有意选择这项创新,以便我们的客户能够在今天和未来获得Azure的最佳体验。”大会期间,微软还宣布了其中一个关键要素的全面可用性——Azure Boost,这是一个将存储和网络进程从主机服务器转移到专用硬件和软件上的系统,有助于加快存储和网络的速度。
在微软Ignite大会上,英伟达也诚意满满地公布一项新进展——推出AI代工服务。英伟达创始人兼CEO黄仁勋现场与微软CEO纳德拉进行了11分钟的对谈,分享英伟达与微软的全面合作。他谈道,生成式AI是计算史上最重要的平台转型,由于生成式AI,一切都变了,过去12个月,微软与英伟达两个团队尽一切努力加快速度,联手打造了世界上最快的AI超级计算机,这通常需要两三年,而两个团队只用1年就构建了其中的两个,一个在微软,一个在英伟达。“我们将为想要构建自己专有大语言模型的人做台积电为我们做的事情,我们将成为AI模型的代工厂。”黄仁勋说,企业需要定制模型来执行根据公司专有DNA(即数据)进行训练的专业技能,该AI代工服务结合了英伟达的生成式AI模型技术、大语言模型训练专业知识和巨型AI工厂。AI代工服务能帮助企业构建跨行业(包括企业软件、电信和媒体)的生成式AI应用定制模型。准备好部署后,企业可以用检索增强生成(RAG)技术将其模型与企业数据连接起来。英伟达在微软Azure中构建了此功能,以便世界各地的企业可以将其定制模型与微软云服务连接起来。该服务汇集了三要素:英伟达AI基础模型、英伟达NeMo框架和工具、英伟达DGX Cloud AI超级计算服务的集合,来提供用于创建自定义生成式AI模型的端到端解决方案。然后,企业可使用英伟达AI Enterprise软件部署自定义模型,以支持生成式AI应用程序,包括智能搜索、摘要、内容生成。使用英伟达AI代工服务的客户可以从多个英伟达AI Foundation模型中进行选择,包括托管在Azure AI模型目录中的全新英伟达Nemotron-3 8B模型系列。Nemotron-3 8B具有用于构建自定义企业生成式AI应用的多语言功能。开发人员还可以访问英伟达NGC目录中的Nemotron-3 8B模型以及社区模型,比如专为英伟达优化以加速计算的Meta Llama 2模型。SAP SE、Amdocs、Getty Images等均已使用该服务构建自定义模型。SAP计划将该服务和优化的RAG工作流程与在 Azure上运行的英伟达DGX Cloud和英伟达AI Enterprise发软件结合使用,以帮助定制和部署其新的自然语言生成式AI copilot Joule。
可能是因为处于早期部署阶段,微软并没有发布具体的芯片参数或性能基准。两款芯片新品将加入微软云的底层硬件供应列表中,以帮助满足对高效、可扩展和可持续计算能力的爆炸式需求。微软正在建设持AI创新的基础设施,并正在重新构想数据中心的各个方面,包括优化Azure硬件系统的灵活性、电源、性能、可持续性、成本,优化和整合基础设施堆栈的每一层,以最大限度地提高性能,使其供应链多样化。自研AI芯片能让微软免于过度依赖少数头部芯片供应商。目前尚存的疑问是微软将以多快速度将两款芯片上架,以及这些芯片会如何帮助平衡对生成式AI体验爆发的需求,以及将如何影响微软Azure AI云服务的定价。