【深度】通向AGI的钥匙:10万H100超级AI算力集群
GPU数量决定了AI公司的生死线。当前AI公司第一梯队的门票是3.2万卡集群,明年第一梯队的门票可能会提升到10万卡(H100)集群。 一个10万张H100构成的AI集群功耗约为150MW,资本开支超过40亿美金,每年电费高达1.2亿美金。 为了满足下一代万亿参数多模态大模型训练,需要精巧的网络拓扑结构设计,综合使用数据并行、张量并行、流水线并行等技术进行分布式训练。 为了避免缴纳巨额的Nvidia Tax,越来越多的Hyperscaler开始选择博通的Tomahawk 5来搭建自己的超级AI集群,而非Nvidia的Spectrum-X,未来博通的网络收入或将继续飙升。
多模SR和AOC收发器的最长传输距离约为50米。 长距离单模DR和FR收发器的传输距离为500米~2000米,但其成本是前者的2.5倍。 园区级800G相干光收发器的传输距离可以超过2000米,但成本要高出10倍以上。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章