Redian新闻
>
智算中心改造:网络成大模型训练瓶颈,节点内外多架构并存

智算中心改造:网络成大模型训练瓶颈,节点内外多架构并存

公众号新闻

本文来自“新型智算中心改造:网络成大模型训练瓶颈,节点内外多方案并存”。AI大模型训练和推理拉动智能算力需求快速增长。

a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。

b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。

智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心;随着大模型普遍进入万亿规模,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态,智算中心将走向超级池化阶段,对设备形态、互联方案、存储、平台、散热等维度提出新的要求。

网络互联:节点内外多方案并存。

1)节点内:私有方案以英伟达NVLink为代表,NVLink已经发展至第五代产品,同时支持576个GPU之间的无缝高速通信;开放技术方案以OAM和UBB为主,OCP组织定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范。

2)节点间:主要方案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、Subnet Management(SM)、连接件组成;RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。

相关阅读:

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“智算”雄起 | 腾讯云:为国产化智算云筑基順手一帖:「橋,瓦爾特及哈伊鲁丁的結局」(關東行者)ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练越过智算云发展拐点!解读天翼云智算服务,用“组合拳”突围大模型训推难题要生50个孩子的游戏大佬又摊上事儿了!多益网络成都400人公司说关就关,或因被关“小黑屋”员工大模型训练之序列并行双雄:DeepSpeed Ulysses和Ring-Attention上线即满载,点军智算中心探索本土AI新基建的范式变革来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题一文读懂多家厂商的大模型训练、推理、部署策略李飞飞团队重磅报告解读AI十大趋势:中国AI专利数全球第一,大模型训练狂烧钱,医学领域AI应用突出 | 大模界美股基本面 - 2024_03_13 * 晨报 * 美国新兴对冲基金越来越受欢迎,行业洗牌悄悄酝酿?。微软员工抱怨公司已沦为O选择需要的Token参与训练:微软重塑语言模型训练法则,准确率飙升30%李飞飞团队年度报告揭底大模型训练成本:Gemini Ultra是GPT-4的2.5倍2024WAIC世界人工智能大会|锐捷网络:助力AI新时代,探索智算网络新机遇华为Pura 70首次实现北斗卫星发送图片信息;全球运营商最大单体智算中心已投入使用丨智能制造日报《尚书》坎坷折腾半辈子,相伴度晚年(二)马斯克烧几十亿美元造最大超算中心,10万块H100训练Grok追赶GPT-4o遇到职业发展瓶颈,怎么办?AI智算网络两大主流架构及差异分析零一万物李谋:当大模型推理遇到算力瓶颈,如何进行工程优化?最新!何恺明团队发布:打破自回归图像生成瓶颈,告别矢量量化正在直播丨中晚期肺癌的治疗是否已突破瓶颈,给患者带来转机?锐捷网络携AI-Fabric智算网络方案,助力智慧城市数字化转型这家世界模型公司发布中国版Sora级视频生成大模型,走向世界模型打造新一代数据引擎直播回放丨中晚期肺癌的治疗是否已突破瓶颈,给患者带来转机?音频社交网络成硅谷新热门应用直播预告丨中晚期肺癌的治疗是否已突破瓶颈,给患者带来转机?协同网络 | 教育公益知识库正式上线,首批协同网络成员入驻共创我的食谱北京算力基建实施方案重磅发布!重点支持采购自主可控GPU,要支撑万亿参数大模型训练智领全栈 模力全开|锐捷网络携智算中心网络方案亮相2024GIDC技术吃瓜:金句还是鸡汤,我们用大模型训练了一个报警器邀请函|2024GIDC,锐捷邀您共度智算中心创新探索之旅焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。