硬核，这才是写给技术负责人的 AI 落地方案！

公众号新闻

2022-10-17 08:10

大家好，我是 Jack。

数字智能时代到来，AI 作为核心驱动力量将为各行各业带来巨大转变。

会有越来越多，医疗、金融、教育等行业的 AI 产品落地。

在医疗行业，应用认知计算技术AI能为人们的健康保驾护航，将人工智能应用到医院平台，能从各种渠道分析访问者的健康状况并提供保健相关的洞察力，并与访问者进行双向互动。对于患者而言，AI可以帮助自己预知发病时间，并及时寻求有效的解决方案；
在金融行业，可以利用AI技术进行智能风投，量化交易；
在教育行业，人工智能可以自主学习大量而深厚的专业知识，开发者能通过人工智能对这些大量非结构化数据的理解、推理和学习，提供个性化的教育体验。
......

今天的内容可能会略显“枯燥”，但绝对属于硬干货。

从基础设施和硬件配置，到平台软件和云管理，一网打尽！

支撑 AI 应用需要完善的基础架构，在 AI 解决方案部署过程中，从底层算力平台到上层资源管理软件，整个基础架构需要集成 CPU、GPU、存储、网络等多种硬件基础设施，其中 GPU 是部署过程中的关键。

因为 GPU 加速计算是近年来集群建设的主流方案，可以提供卓越的应用程序性能，将应用程序计算密集部分的工作负载转移到 GPU，同时仍由 CPU 运行其余程序代码，可显著提高应用程序的运行速度，建设一个 GPU 高性能计算集群可以提供一个 GPU 加速的人工智能实验平台，促进企业人工智能、大数据、深度学习、机器学习等算法方面的研究和应用。

此外，还需要 pytorch、Tensorflow 等 AI 框架，AI 框架是为了更轻松、高效地研究和应用深度学习。

目前主流的深度学习框架都很好的支持 GPU 加速，框架可专门为深度神经网络（DNN）训练所需的计算提供支持高度优化 GPU 的代码 NVIDIA 的框架经过调优和测试，可提供非常出色的 GPU 性能，借助这些框架，用户可以通过简单的命令行或 Python 等脚本语言接口访问代码。

import torch
# Assume that we are on a CUDA machine, then this should print a CUDA device:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

许多功能强大的 DNN 都可通过这些框架来训练和部署，而无需编写任何 GPU 或复杂的编译代码。

import torch.nn as nn
import torch.nn.functional as F
 
net = torchvision.models.densenet121(num_classes = 10)

net.to(device)

再通过 docker 容器技术，调度器等软件进行统一的计算资源与数据库管理和调度，可从 GPU 加速带来的训练速度提高中受益。

如果将能成功跑起来的 AI 应用比做一匹马，那么硬件就是马匹本身，马鞍是机房基础设施，而软件和算法是用于把控方向的缰绳，只有三者相匹配、融为一体，才能跑得快、跑得远。

接下来，从机房基础设施方面聊聊，如何打好“基建”。

机房建设是部署 AI 应用的基础，也是整个基础架构中最底层的部分，合理的机房建设可以满足未来计算资源的扩容，可以提高计算资源的利用率，节省空间与能耗，机房基础设施涉及服务器机柜、 KVM 切换器、UPS 不间断电源、精密空调、防静电地板，新风系统、隔音的处理等等，机房基础建设要考虑未来算力资源的扩充，提前根据算力平台的功耗考虑供电系统，根据设备的数量考虑机房空间。

机房基础建设分为传统机房和模块化机房，传统机房一般采用工业空调对机房整体空间制冷的方式，或者是采用精密空调架空地板下送风方式制冷方式，模块化机房与传统机房最大的区别在于能够最大限度的利用制冷功率为设备散热。

因为其采用封闭冷通道方式，冷气与热气隔离，整体提高制冷效率；空调与 IT 机柜并排间隔摆放，采用空调水平送风直接对机柜吹冷风，满足其散热需求，为客户节约大量运营成本。

其次，模块化机房能够快速部署。因其出厂前完成机柜的预安装，现场只需接通外部电源，固定机柜等简单操作即可使用。

例如，解决方案提供商思腾合力位于包头的云计算中心即采用模块化机房，总面积 2400 平米，地板承重 800KG/㎡，抗震烈度等级 8 级，电力方面稀土变+沼潭变，双市电保障，发电机冗余，满负荷下可运行 12 小时，并与加油站签署供油合同，

UPS 采用采用 2N 冗余 UPS 供电，满载后备 120 分钟，空调方面采用 N+1 列间精密空调，运营安全方面采用双冗余华为 6680 防火墙，开启 IPS / IDS /防病毒功能，采用 7x24 小时不间断全方位机房监控，采用大数据动态感知系统，实时分析预警。

在对机房的一系列需求评估、选址落地等过程中，也会同步考量硬件的部署。

硬件资源层构成复杂，部署 AI 应用需要涉及算力、网络、存储等方面，标准的集群构建需要管理节点、计算节点、存储节点和网络节点。一般来说，管理节点会采用普通 2U 机架式服务器，顾名思义，它是承担集群中管理的角色，计算节点即我们提供核心算力的部分，通常采用 GPU 服务器，主流的有 NVIDIA A30 Tensor Core GPU、NVIDIA A40 Tensor Core GPU等。

下面以笔者熟悉的 GPU 卡和服务器为例，带大家了解一下常见的计算与管理节点的参数与功能配置有哪些。

1思腾合力

NVIDIA A40 是 NVIDIA Ampere 架构计算卡，速度提升一倍的单精度浮点 (FP32) 运算处理和改善的能效可显著提高图形和模拟工作流程的性能，A40 采用第二代 RT Core 的吞吐量是上一代的 2 倍。

并能同时运行光线追踪和着色或降噪功能，从而大幅加快工作负载的运行速度，A40采用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的训练吞吐量达到上一代的 5 倍，而且无需更改代码即可加速 AI 和数据科学模型的训练。

从硬件上支持结构稀疏度使推理吞吐量提升一倍；另外，A40 具有超高速 GDDR6 显存，单卡48GB，还可通过 NVLink® 扩展到高达96 GB，为数据科学家、工程师和创意专业人士提供所需的大容量显存，让他们能够处理大型数据集以及数据科学和模拟等工作负载，PCI Express 第 4 代将 PCIe 第 3 代的带宽增加了一倍。

因而提升了从 CPU 内存传输数据的速度，能更好地支持 AI、数据科学和 3D 设计等数据密集型任务，更快的 PCIe 性能还能加速 GPU 直接显存访问 (DMA) 传输，A40 向后兼容 PCI Express 第 3 代，这也提供了部署灵活性。

* 与 NVIDIA 产品相关的图片或视频（完整或部分）的版权均归 NVIDIA Corporation 所有

思腾合力 GPU 服务器从 2U2 卡，2U4 卡到 4U4 卡，4U8 卡，4U10 卡均有覆盖，像 IW4222-8GR 这块 8 卡 GPU 服务器，就是我们构建集群经常用到的一款服务器，它支持 2 颗第三代 Intel® Xeon® Icelake 系列可扩展处理器，TDP 270W，提供强大的 X86 处理平台针对推理及训练应用，带宽翻倍的 PCIe Gen4 平台上可支持 8 块双宽 GPU 卡，专为高密度 GPU 计算提供多方位的性能支持，支持高速网络，存储和其他 IO 扩展，8 个 U.2 硬盘。

为高端计算平台提供高速传输和数据存储能力。同时进一步优化运维效率，拥有专业管理平台能够实现对市面主流的各类 GPU 实现识别，监控，风扇调速支持，故障报警等功能；

存储节点即 AI 应用中存放数据的地方，AI 应用对于数据量的需求非常庞大，而且对于读写性能、带宽都要求很高，所以对存储的容量、性能及安全性都有要求，存储可以采用分布式存储系统，即数据分布到各个存储节点上，并行读写，提供存储性能，同时可以采用不同的冗余方式，比如双副本、多副本、纠删码冗余技术等等，保证数据安全性。

这块思腾合力具备 4U24 盘位、4U36 盘位存储服务器，也有自己的分布式存储管理软件，可提供集性能、容量、安全性与一体的分布式存储系统；网络节点有 3 套：管理网络、计算网络和 IPMI 网络，这里管理网络一般采用千兆以太网，计算网络一般采用万兆光纤网络或者 InfiniBand 网络，IPMI 网络做远程管理使用。

有了刚刚介绍的硬件资源层，构建好集群硬件后，接下来的一步是平台软件的部署。

2平台部署

我们在开篇讲到部署 AI 应用需要 pytorch、Tensorflow 等 AI 框架，如果没有平台软件统一管理，就需要使用者自己安装应用环境，包括 CUDA、AI 框架、docker 等，再进行环境的调试。

在 AI 部署中，软件环境调试非常耗费时间，并且不是所有使用者都熟悉各种软件环境。

此外，没有软件平台做统一管理，会造成资源分配不均，容易产生计算资源的浪费，比如大多数高校发现 GPU 计算资源被初学者占用，往往导致真正科研计算任务匮乏计算资源。

基于 Docker 环境的计算管理环境常常发生计算资源抢占现象，让管理者应接不暇各种投诉。

在这方面。思腾合力有自主开发的 SCM 人工智能云平台软件，集成了主流的 AI 框架，可实现计算资源池化，按需分配给一个或多个用户使用。

SCM 云平台可对 GPU 高性能计算资源进行统一的管理和调度，有效满足用户在深度学习等科研及教学方面的需求，用户可以快速在平台上进行数据处理、算法设计、模型训练、模型验证、模型部署等工作，而不用关心底层复杂的集群构建与调度机制以及深度学习框架的安装部署、性能调优等问题，在充分简化深度学习训练方面工作的同时有效提高资源利用率。

说到这里，我们用来部署 AI 应用的全套装备就齐全了，下面以实际案例出发，看看一个 AI 应用是如何落地的。

3应用落地

案例： 山东省人工智能研究院 AI 实验室建设，以下简称“智能院”，定位于山东省人工智能领域创新型科研机构，致力于打造引领全省人工智能科学研究的高地，高端人工智能专业人才的摇篮，成果转化的基地，人工智能领域的重要智库以及国际交流与合作的重要枢纽；

智能院的需求及痛点有：

1、模型和算法出现算力瓶颈，训练时间周期长；

2、难分配：存在的所有资源都是以物理形式存在，没有办法很好的进行合理资源分配，导致科学研究存在一定问题。低效率：正在运行中的项目作业只能靠人为干预检查是否正常运行，费时费力。不灵活：大量的算力资源无法通过软件进行灵活调配，无法支撑算力需求极高的任务；

3、难定位：在多个线程的项目同时运行时，一旦有其中之一出错，难以精准定位报错任务。

4、难管理：没有集群管理软件进行统一的资源管理与监控，无法避免资源的浪费以及算力不足的问题。

解决方案： 从底层硬件算力平台和上层软件管理平台的统一部署，1 节点管理服务器 IW2211-2GR，9 节点思腾合力 IW4213-4G 计算服务器，2 节点思腾 36 盘位存储服务器，计算网络采用 100G InfiniBand 组网，软件管理平台使用思腾合力 SCM 人工智能云平台软件。

亮点：

1、通过统一 AI 平台可进行多用户管理，用户分组管理，不同用户的权限管理等多维度管理模式；

2、提交作业支持 Novnc 远端桌面，可满足图形化使用习惯的部分用户；

3、平台可通过 jupyter 进行深度学习模型的训练，代码调试，调参等等，还可进行打包容器保存自己的镜像环境；

4、平台具有使用时长统计，可查看每个用户的使用时长。

部署效果：

通过计算平台的建设，满足内外部的开展机器学习、计算机视觉、自然语言处理、知识表达与推理等关键技术研究，支撑智能医疗、智能家居、智能交通等行业应用研究。

通过算力服务器解决模型和算法的算力需求瓶颈问题，用户可在 SCM 软件平台上直接划分计算资源，存储资源，分配给多个用户使用，SCM 集成了主流的 AI 框架，以及镜像仓库，方便用户做 AI 相关的科研工作，减少调试环境的时间，间接提升科研效率数 10 倍。

人工智能基础架构的构建需要多重因素协调配合，对于一些非计算机专业人员，基础设施的开发、搭建、调试往往要耗费数月时间，期间透明性低，测试频繁，效率低下，严重限制人工智能技术在行业中的应用，比如 Tensorflow、Caffe 等众多的计算框架以及 CNN、RNN 等复杂的网络模型。

即便是资深工程师也需要花费大量的时间成本学习和应用，主流计算框架采用 CPU+GPU 的异构计算平台，其管理和调度融合了高性能计算、大数据和云计算等多领域技术，实现难度较大，诸如思腾合力这类解决方案提供者，可以帮助大家完成从基础设施到云管理平台的构建，通过其研发的 SCM 人工智能云平台软件，面向大规模异构计算基础设施管理，解决上述问题。

这篇文章就到这里，希望各位开发者、技术负责人、业务管理者们能够找到适合自身的解决方案，实现深度学习计算资源管理、调度、应用的自动化，充分提升计算基础设施资源利用效率，降低部署 AI 应用的总体拥有成本，提升 AI 研发创新效率！

如您想了解更多关于 NVIDIA A40 的产品信息，点击阅读原文↓↓↓，注册下载产品白皮书

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

硬核 ，这才是写给技术负责人的 AI 落地方案！

1思腾合力

2平台部署

3应用落地

硬核，这才是写给技术负责人的 AI 落地方案！