Redian新闻
>
如何为混合AI打好算力地基?联想集团已率先交卷

如何为混合AI打好算力地基?联想集团已率先交卷

公众号新闻

混合AI时代算力的“万全之策”。
作者 |  程茜
编辑 |  漠影
如今,个人大模型和企业大模型以及在其基础上发展出的个人智能体和企业智能体,将与公有大模型共存互补,以混合AI形态加速落地。
在此背景下,大模型的形态更加多元、数量增长愈发使得“算力为王”成为当下AI时代的主题,让“如何用好算力”这件事也被注入了更多新的期待。但这并不意味着“得算力者得天下”,企业更需关注的是如何驾驭海量算力,充分让算力成为支撑个人智能体和企业智能体在各种行业中应用的养料。

算力的高效利用迫在眉睫。其中,医疗领域在进行大规模数据处理、分析,需要考虑避免算力资源的浪费节省成本;从数字人助教到课程大模型等丰富应用在教育行业出现,需要让算力足够支撑这些多元应用……
同时,由于当下生成式AI的应用场景丰富,涉及的算法框架多样且需要面临不同的GPU选配、硬件搭配等,这些中间环节都为算力使用者提出了不小的挑战。未来,算力的利用率将持续攀升,产业焦点正从拼卡、拼硬件堆叠过渡到拼软件。相比于硬件堆叠,软件调度在可获得性、灵活性、可靠性等方面的优势,成为企业解决当前算力利用率提升困境行之有效的一大解决方案
联想集团提出的AI for ALL战略,在这场混合式人工智能的竞赛中占得先机。在Q4财报发布之际,联想集团再次发布一支硬核科普视频,视频通过UE5搭建了科幻感十足的场景,模拟《沙丘》般的混合算力基建,并辅以AI生成内容等手段,对抽象技术进行了3D立体呈现。

针对企业合理分配调用现有算力的迫切需求,通过拆解算力在企业AI训练感知、调度、加速、应用的全链路流转,看到联想集团在层层交织的巨大算力网络中,如何以混合算力基础设施软件为企业抽丝剥茧,将星罗棋布的混合算力单元探索、挖掘、输送到企业的不同业务需求中。

01.
混合式AI加速落地
企业用好算力面临三大拦路虎


如今,软件已成为加速计算的根本必要条件,简单的硬件叠加部署算力已经难以追赶混合AI步伐,各行各业必须意识到从硬件堆叠向软件基础设施转变才是大势所趋
因此,在企业现有的多元化混合算力基础设施上,亟需更优的混合算力基础设施软件释放全部混合算力资源,这在当下几乎已经成为企业大模型与业务相结合的必要条件。

但是,充分调度现有的混合算力面临三大难点。
首先是多元化应用场景与算力匹配的难题。为了满足AI愈加多元化的应用场景,企业构建的计算集群往往有上百种,不同组合的服务器、存储、网络需要不同的调度方式,同时AI领域目前至少有5种以上的算法框架和10种以上算子库,企业的适配难度极高。
第二点在于,集群的故障断点次数多,恢复成本极高。根据统计,目前业界顶尖的千卡集群,每月至少有15次断点故障。每月额外费用超过百万元,常规的断点续训技术上,每次故障恢复时间达到2个小时,使得训练效率大幅降低。
并且现在规模更大的万卡集群出现,其面临的故障中断次数及恢复时间也呈指数级增长。
第三点则在算力利用率方面,出乎意料的是,AI模型算力利用率MFU(Model FLOPs Utilization)普遍在30%左右,几乎有超过一半的算力被浪费,大量算力仍处于闲置状态,在算力供需不平衡的当下,提高算力利用率至关重要。

这些难题无疑给算力使用者、AI基础设施提供者带来了不小的挑战。但挑战背后正是历史机遇,联想集团作为算力基础设施提供者在技术积累、产品创新、应对挑战上齐头并进,为算力使用者带来了更佳的创新解决方案。正如联想集团董事长兼CEO杨元庆在联想创新科技大会Tech World上所说:“人工智能变革不是一场集成商的角逐,而是一场创新者的赛跑。”

02.
拆解混合算力基础设施软件
全流程为企业释放算力资源


数据中心往往由三种集群构成,包括服务于AI的集群、通用计算集群、高性能计算集群,它们共同为企业的计算需求效力。但因调度器不同,这三种集群存在调度壁垒——使得企业的AI需求无法调度全部GPU资源,部分昂贵的GPU资源闲置,这在AI需求紧迫的当下已经成为企业一大桎梏。

4月18日,联想集团在2024 Tech World上最新发布了联想万全异构智算平台HIMP(Lenovo wanquan Heterogeneous Intelligence Management Platform)。面对企业算力应用困境,它能够极致压榨企业混合算力资源,让算力充分为企业AI训练所用。

视频中颇具视觉冲击力的“四棱锥”,便是联想的混合算力基础设施软件HIMP,在企业AI训练的感知、调度、加速、应用全链路过程中助力各行各业释放全部的算力。
首先要感知和调度算力,这是其合理分配算力资源的关键,也构成算力使用的基础。
针对不同计算集群间调度存在壁垒,无法将全部GPU资源为AI需求所用这一痛点,联想HIMP的一大独创性就是能跨越集群间不同网络定位拥有最优训练速度GPU的拓扑感知机制。视频中在三维空间中不断变化的网络拓扑动画,打破了不同集群间的调度壁垒,成为算力网络中的重要一环。拓扑感知机制可以使千卡集群的网络通信效率提升10%-15%。
同时,联想集团打造的超级调度器,可以一举盘活AI集群、通用计算集群、高性能计算集群。通过一个面板,能够清晰看到联想HIMP可以实时感知、监测和收集算力数据以及不同业务的算力需求,通过分析相应数据进行算力的合理分配与调度,将所有GPU资源为AI所用。

合理分配之后的下一步就是如何让算力加速。
往往在企业AI训练过程中,几乎有一半的响应时间会在网络中被消耗,网络通信速度慢直接影响算力的使用效率。
联想集团以近似于“蚁群觅食行为”的集群调度算法,为AI计算提速。视频通过蚁群算法的仿生学比喻超级调度器,生动再现蚁群在复杂的环境中,驾轻就熟地找到最佳路径,减少网络中消耗的时间。

同时,为了验证大模型训练的效果,其中会夹杂部分推理任务。为了清晰地演示出这一推理过程,视频将推理任务虚拟为红色模块粒子,从训练任务分离而出,排队等待训练。其所需的算力资源小,不需要占满整颗GPU。以往用户会在操作系统层进行GPU虚拟化的算力分配,这过程中,会产生大概20%的算力损耗。
因此,为了提升算力的使用效率,联想HIMP的另一大独创性就是GPU驱动层的内核态虚拟化技术,视频通过三维动画生动直观地展示了GPU在驱动层的虚拟切割,代表推理任务的模块粒子在其中极速飞梭,使GPU成为一个算力蜂巢,推理任务之间能实现任务隔离,单独任务分开计算。算力在虚拟化过程中损耗可以降到5%以下,在极致情况可以降到1%以下,几十张卡实现“千卡集群”,驱动企业的混合算力应用率提升。

最后就是应用层面,这也是算力被可持续利用起来,保证成功率的关键。
AI训练中任一节点故障都会导致整个集群停摆。联想集团创新性提出以模型之力拯救模型,通过对大量AI训练故障进行特征采样,构建了可以预测AI训练故障的模型
视频里,计算数据在空中不断向蓝色节点输送,当预测到故障时,备份节点就会被调取节点提前备份,点亮一条橙色通路,使断点续训的恢复时间从几小时减少到一分钟,大幅提升了企业的训练效率。

联想集团的异构智算平台HIMP打通了全部的算力网络,这一全流程AI训练框架落成,使得AI模型算力利用率MFU(Model FLOPs Utilization)大幅提升。在混合AI落地的需求背景下,联想集团的混合算力基础设施软件调度加持,助力企业释放全部混合算力。
联想HIMP也成为AI 2.0时代联想集团AI基础设施战略框架的核心,大模型训练和推理的基础设施底座。

03.
结语:极致压榨算力潜能
直面算力指数级增长


生成式AI浪潮席卷千行百业,正如这支可视化财报科普解读视频所提到的:“AI所带来的新工业革命,本身就是人类对算力这一资源的挖掘和应用”。在算力资源稀缺的背景下,作为AI基础设施的行业领军者之一,联想集团正循序渐进去极致压榨算力资源推动AI基础设施释放最大动能,让企业充分利用好海量算力,与搭载个人大模型的AI PC一起助力混合AI时代加速到来。

过去20多年,PC互联网和移动互联网引领了互联网产业革命,并带动了相应的基础设施产业繁荣。如今AI有望应用于千行百业,放眼未来10年,对于AI技术的强大需求将催生一个指数级增长的算力市场,基础设施巨头联想集团正立于潮头,成为守在风口的先行者。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)


 
科普视频

企业算力利用率提升迫在眉睫,软件调度已成加速计算必要条件。联想集团科普系列主题视频发布,以“万全”之策,打通AI训练全流程助企业释放驾驭海量算力,加速混合式人工智能落地。


(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
如松:最后的狂欢,她已率先裸泳AI教育“智”变大考,小度率先交卷了携手共绘AI时代新蓝图,联想集团与锐捷网络战略签约财经早参丨纳指涨超1%,特斯拉盘后涨10%;农民种地要先交钱?官方回应;俄防长:特别军事行动以来乌军损失近50万人4家国产芯片领衔,商汤亿咖通在列!智能汽车算力峰会嘉宾阵容大更新,全面拆解算力变局京东618又便宜又好,5月31日晚8点全面开启;联想集团获沙特主权财富基金20亿美金战略投资......狗引儿【长篇】(七十五)农民种地要先交钱,村干部:“110来又能咋地,上边让我敛钱我就敛钱!”当地通报别被算力扼住咽喉,“国家队”下场,加码新质算力基础设施拆解端到端、城市NOA、舱驾一体的算力挑战!中国智能汽车算力峰会最终议程公布深度|复兴“芭比”的神奇先生如何带领服装老牌 Gap 打好“翻身仗”?当前楼市,信息极为混乱,能不能给句实话?跑步看世界-奥兰多“种地先交钱”事件中,被忽略的“农村土地三过”问题联想集团最新财报:AI革命提振三大主业 Q4业绩再超预期;阿里巴巴旗下人工智能品牌天猫精灵发布X6智能音箱......火爆!澳洲5月新车销售中近1/4为混动或电动车!电动车优势凸显,太阳能助力实现用电自由!红利抱团已经开始,但泡沫尚未形成!探寻AI时代不可或缺的数智化“地基”镇领导还是恶霸?种地要先交钱引众怒!官方紧急回应,媒体追问:谁提拔的?穷凶极恶只是假象,犹太利益集团已经大祸临头无问芯穹夏立雪:破解算力焦虑,我做了大模型算力领域的「淘宝」丨36氪专访农民种地要先交钱?村干部:“上边让我敛钱我就敛钱!”回应来了!讲道理,开鲁县“先交钱再种地”的新闻反转不了的机器人计算平台迈入大算力时代!云骥智行凭什么3个月交卷是谁,在毁掉“帝国”的根基?Suno秒生爆火神曲,混合算力AI正在加速普及Aginode安捷诺:2024面向未来的算力网络连接-中国中国算力网络市场发展白皮书冰岛冰川泻湖(Glacier Lagoon),无声表达42、长篇家庭伦理小说《嫁接 下》第十四章 缘起缘灭(3)想发帖先交钱!马斯克证实将对X新用户收费 称“别无选择”随大流?英国九大公学中多所男校转为混校!我选择男女混校的原因是……OpenAI陷巨大算力荒,国内大厂抢先破局!打破单芯片限制,算力效率提升33%辉羲智能联合创始人领衔,联想博泰映驰大咖出席!中国智能汽车算力峰会首批嘉宾公布李小牧畅销书自传《歌舞伎町案内人》而闻名日本戴尔科技:AI时代算力基础设施创新,让每一分算力物尽其用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。