- 深度解读RoCE v2网络技术
在日新月异的网络技术领域中,远程直接内存访问(RDMA)技术已成为优化数据传输流程、提升整体网络效能的关键驱动力。其中,以太网融合RDMA技术——RoCE(RDMA over Converged Ethernet),其第二代版本RoCE v2凭借显著的性能提升与更强的灵活性脱颖而出。本文来自“深度解
- 英伟达:下一代GPU细节曝光
本文转自“英伟达:下一代GPU细节曝光”。Nvidia 正在准备该公司的 GeForce RTX 50 系列 (Blackwell) 产品,以与最好的显卡相竞争。著名硬件泄密者 @kopite7kimi 声称,根据他的信息,Blackwell系列的内存接口配置不会与Ada Lovelace系列有太大
- AI数据中心网络架构需求:400/800G光模块
随着AI技术和相关应用的不断发展,大模型、大数据和AI计算能力在AI发展中的重要性日益凸显。大模型和数据集构成AI研究的软件基础,而AI算力是关键的基础设施。在本文中,我们将探讨AI发展对数据中心网络架构的影响。下载链接:AI数据中心网络架构需求:400/800G光模块Fat-Tree数据中心网络架
- 国产算力训练大模型的经验与教训
本文来自“国产算力训练大模型的经验与教训”。本文介绍大模型的计算特征(国产平台介绍、系统挑战、算子实现、容错)、框架的并行性支持、未来算法等。随着ChatGPT的横空出世,人工智能大模型成为各行各业热议的焦点,国内外各种大模型如雨后春笋般涌现,引发了新一轮人工智能热潮。但在看到大模型取得巨大进步的同
- 一文全面掌握超融合技术
超融合(HCI)是一种集成了计算、存储和网络的技术架构,旨在将数据中心的硬件和软件资源整合在一起,提供高度集成、可扩展、易管理的解决方案。超融合架构通过将计算、存储和网络功能纳入同一套硬件平台和软件框架中,实现了整个数据中心的一体化管理和自动化运维。减少各种设备之间的互相依赖,实现高效的一体化管理。
- GPU/TPU集群主流组网分析
流行的GPU/TPU集群网络组网,包括:NVLink、InfiniBand、ROCE以太网Fabric、DDC网络方案等,深入了解它们之间的连接方式以及如何在LLM训练中发挥作用。为了获得良好的训练性能,GPU网络需要满足以下条件:1、端到端延迟:由于GPU间通信频繁,降低节点间数据传输的总体延迟
- 一文掌握中间件技术基础
中间件(MiddleWare)是提供系统软件和应用软件之间连接的软件,以便于软件各部件之间的沟通,特别是应用软件对于系统软件的集中的逻辑,在现代信息技术应用框架如Web服务、面向服务的体系结构等中应用比较广泛。本文来自“中间件技术基础”。从分布式软件到中间件、对象与构件、中间件技术发展历程、中间件
- AI网络中GPU与光模块的比例和需求分析
市场上存在多种计算光模块与GPU比例的方法,导致结果不相同。造成这些差异的主要原因是不同网络结构中光模块数量的波动。所需的光模块的准确数量主要取决于几个关键因素。相关链接:GPU深度报告:英伟达GB200 NVL72全互联技术,铜缆方案或将成为未来趋势?国产AI算力行业报告:浪潮汹涌,势不可挡(20
- 中国服务器操作系统行业市场研究报告
本文来源于“沙利文:2023年中国服务器操作系统行业市场研究报告”。得益于新基建快速推进、政策引导下信创产业的蓬勃发展,国产服务器操作系统正逐步崛起。中国基础软件根技术自主掌控能力重视程度不断提高,越来越多的中国企业已经意识到其重要性,正在以更加积极拥抱的态度面对服务器操作系统领域的国产化替代趋势。
- InfiniBand网络、HDR和IB在超算中的应用实践
InfiniBand(IB)是由InfiniBand贸易协会(IBTA)建立的先进计算机网络通信标准。它在高性能计算(HPC)中的广泛采用归功于它能够为网络传输提供卓越的吞吐量、带宽和低延迟。InfiniBand是计算系统内部和外部的关键数据连接。无论是通过直接链路还是通过网络交换机进行互连,Inf
- 一文掌握微服务技术:概念、架构与实现
微服务(或称微服务架构)是一种云原生架构方法,在单个应用中包含众多松散耦合且可单独部署的小型组件或服务。这些服务通常拥有自己的技术栈,包括数据库和数据管理模型;通过一个REST API、事件流和消息代理组合彼此通信;以及按照业务能力进行组织,具有通常称为有界上下文的服务分隔线。本文来自“微服务技术:
- 改变AI服务器:互连芯片技术创新和突破
根据TrendForce的数据,AI服务器的出货量约为130,000台,占全球服务器总出货量的约1%。随着微软、Meta、百度和字节跳动等主要制造商相继推出基于生成式AI的产品和服务,订单量显著增加。预测显示,在ChatGPT等应用的持续需求推动下,从2023年到2027年,AI服务器市场预计将保持
- 英伟达NVLink技术深度分析
NVIDIA NVLink已成为高性能计算(HPC)和人工智能领域的关键技术。本文深入探讨了NVLink的复杂性,并介绍NVSwitch芯片、NVLink服务器和NVLink交换机,以揭示其在不断演进的先进计算领域中的重要性。关于CPU、服务器和存储详细技术,请参考“服务器基础知识全解(终极版)”,
- InfiniBand与RoCE对比分析:AI数据中心网络选择指南
本文来自“InfiniBand与RoCE对比分析:AI数据中心网络选择指南”。在当前人工智能技术飞速发展的背景下,其在包括自然语言处理、计算机视觉、自动驾驶系统、虚拟助手服务、推荐算法以及医疗诊断在内的众多前沿应用中发挥着至关重要的作用。随着AI应用的不断深化与升级,数据中心基础设施必须应对日益严苛
- 2024中国“百模大战”竞争格局分析
大模型是一个重资源禀赋和高进入门槛的赛道,“百模大战”是一场重投入和高消耗的持久战役。“百模大战”的上半场是资源和技术的碰撞,入局企业需要长久的资源支持获得高密度的人才、高质量的数据和大规模的算力,同时需要持续的研发投入,以科技创新和技术积累构建竞争壁垒。在“百模大战”下半场的竞争中,需要重点关注商
- 存储激荡60载:DRAM、Flash、存算一体、HBM和CXL
处理器从内存中读取数据,而内存从闪存中加载数据。DRAM属于易失性存储器,使用电容存储,必须隔一段时间刷新,一旦停止刷新存储的信息就会丢失。而Flash属于非易失性的存储,在断电后不会丢失数据,是在ROM的基础上演进而来。DRAM读写速度比Flash快、成本高、功耗较大、寿命长、结构简单集成度高,F
- 2024年服务器行业深度报告
本文来自“服务器行业深度报告:AI和“东数西算”双轮驱动,服务器再起航”。更多内容参考“服务器基础知识全解(终极版)”,“存储系统基础知识全解(终极版)”。海外自2022年OpenAi发布的ChatGPT将大型语言生成模型和Al推向新高度以来,全球各大科技巨头纷纷拥抱AIGC。大模型通常包含数亿级的
- AIGC大模型:对网络的5大关键需求
从Transformer 问世至 2023年 ChatGPT 爆火,人们逐渐意识到随着模型参数规模增加,模型的效果越来越好,且两者之间符合Scalinglaw规律,且当模型的参数规模超过数百亿后,AI大模型的语言理解能力、逻辑推理能力以及问题分析能力迅速提升。同时,随着模型参数规模与性能提升后,A
- H100/H200、B100、X100 GPU架构演进总结
前篇内容请参看文章:Nvidia AI芯片路线图分析与解读、Nvidia芯片工艺洞察和推演、Nvidia AI芯片架构分析。基于以下两个前提:每一代AI芯片的存储、计算和互联比例保持大致一致,且比上一代提升1.5到2倍以上;工程工艺演进是渐进且可预测的,不存在跳变,至少在2025年之前不会发生跳变
- 超算网络中的主流拓扑架构
高性能计算场景的流量关注静态时延的同时需要支持超大规模组网。然而传统的 CLOS 架构作为主流网络架构,主要关注通用性,牺牲了时延和性价比。业界针对该问题开展了多样的架构研究和新拓扑的设计,Fat-Tree、Dragonfly、Torus是几种常见的网络拓扑,Fat-Tree架构实现无阻塞转发,D