Redian新闻
>
一文读懂Dragonfly网络拓扑

一文读懂Dragonfly网络拓扑

公众号新闻

据Hyperion Research 公司按照系统验收的时间估算,2021至2026年期间,全球将建成28~38台E级或接近 E 级的超级计算机。本文参考自“总线级数据中心网络技术白皮书”。




在原先传统数据中心内,计算存储性能未提升前,端到端的时延主要在端侧,即计算和存储所消耗的时延占比较大,而当计算存储器件性能大幅提升后,网络成为了数据中心内端到端的性能瓶颈。下图显示了计算存储性能提升前后,端到端时延的占比变化。

网络新拓扑架构路由技术,大规模组网实现跳数下降20% 。针对高性能计算场景,数据中心的流量特征关注静态时延,需要支持超大规模,传统的 CLOS 架构作为主流的网络架构,其主要关注通用性,但是牺牲了时延和性价比。业界针对该问题开展了多样的架构研究和新拓扑的设计。

当前数据中心网络架构设计大多基于工程经验,不同搭建方式之间难以选择,缺乏理论指导,缺乏统一性设计语言。另外网络拓扑性能指标繁多,不同指标之间相互制约,指标失衡很难避免。

Dragonfly是由John Kim等人在2008年的论文Technology-Driven, Highly-Scalable Dragonfly Topology中提出,它的特点是网络直径小、成本较低,对于高性能计算有着非常大的优势。现在已经被运用在使用Cray XC系列网络的各种超算中。

拓扑结构

一个简单的dragonfly网络如下图所示。

Dragonfly的拓扑结构分为三层:Switch层,Group层,System层[也叫路由器(Router)、组(Group)、系统(system)层)]。

  • Switch层:包括一个交换机,及其相连的 p 个计算节点
  • Group层:包含 a 个Switch层,这 a 个Switch层的 a 个交换机是全连接(All-to-all)的,换言之,每个交换机都有 a-1 条链路连接分别连接到其他的 a-1 台交换机
  • System层:包含 g 个Group层,这 g 个Group层也是全连接的

对于单个switch交换机,它有p个端口连接到了计算节点,a-1个端口连接到Group内其他交换机,h个端口连接到其他Group的交换机

因此,我们可以计算得到网络中的如下属性

  • 每个交换机的端口数为 k=p+(a-1)+h
  • Group的数量为 g=ah+1
  • 网络中一共有 N=ap(ah+1) 个计算节点
  • 如果我们把一个Group内的交换机都合成一个,将它们视为一个交换机,那么这个交换机的端口数为 k‘=a(p+h)

在一个较小规模的网络中, g=ah+1 个group可能会较多,可以将任意两个Group之间的连接数由一条增加为多条,这样任意两个Group之间就有 floor((ah+1)/g) 条链路连接。

不难发现,在确定了 pahg 四个参数之后我们就可以确定一个dragonfly的拓扑,因此一个Dragonfly的拓扑可以用 dfly(p,a,h,g) 来表示

一种推荐的较为平衡的配置是方法是:a=2p=2h

路由算法

Dragonfly的路由算法主要有两类,最小路由算法(Minimal Routing,最短路径的路由)与由Valiant提出的可以在系统层面上应用的非最短路径的路由算法(Non-Minimal Routing,非最短路径的路由)。此外作者在论文中还提出了UGAL(Universal Globally-Adaptive Load-balanced,全局自适应负载均衡路由)算法。具体来讲:

  • Minimal Routing:最短路径的路由,简写为MIN。由于拓扑的性质,Minimal Routing中最多只会有1条Global Link和2条Local Link,也就是说最多3跳即可到达。在任由两个Group之间只有一条直连连接时(即g=ah+1时),最短路只有一条。
  • Non-Minimal Routing:非最短路径的路由,可以简写为Non-Min,来自论文A scheme for fast parallel communication。有的地方叫Valiant algorithm,简写为VAL,还有的地方叫Valiant Load-balanced routing,简写为VLB。随机选择一个Group,先发到这个Group然后再发到目的地。由于拓扑的性质,VAL最多会经过2条Global Link和3条Local Link,最多5跳即可到达。
  • Universal Globally-Adaptive Load-balanced(UGAL):全局自适应负载均衡路由,来自论文Load-Balanced Routing in Interconnection Networks。当一个数据包到达交换机时,交换机根据 最短路径路由MIN 和 非最短路径的路由VAL 的 路径上所有交换机队列的排队长度的和,来选择路由。

因为要获取到全局网络状态信息太难了,所以提出了一系列变种,在Dragonfly中有如下若干种实现方式:

  • UGAL-G:只根据发送节点所在的Group的所有交换机的队列排队长度来进行判断。但是要实现这个依然很难,也是一个非常理想的情况。
  • UGAL-L:只根据本地交换机的队列排队长度来进行判断,这种方式会产生一个问题:当在源Group中进行路由时,如果最短路径和非最短路径都要经过源Group中另一个交换机时,此时这两条路径的出口队列一致,因此总是会选择最短路径。
  • UGAL-LVC:针对UGAL-L的问题进行了一点改进:将最短路径和非最短路径分为两个VC,分别排队来计算长度。但是这样又会导致数据包更偏向选择非最短路由,导致在均匀流量模式下性能不好。
  • UGAL-LVC_H:针对UGAL-LVC的问题又进行了一点改进:只有在MIN和VAL的输出端口不一样的时候,才用VC的队列长度来进行判断,否则还是直接使用队列长度来判断。
  • UGAL-LCR:由于只用本地信息来判断拥塞,在buffer越大时反而造成的延迟越大,因为buffer被填满了之后,上游的交换机才能通过没有credit了感知到。为了克服这个问题,可以通过当前拥塞情况主动增加credit的返回延迟,上游交换机认为返回credit越快的交换机拥塞程度越小。

死锁避免

在Dragonfly中,形成环路的概率要高很多。因此,如果使用最短路由,需要2个VC来避免死锁;如果使用非最短路由,需要3个VC来避免死锁。


参考资料:

1、https://ngdcn.com/post/208.html

2、https://www.cnblogs.com/Nreyab/p/15590684.html

3、http://blog.sysu.tech


本文参考自总线级数据中心网络技术白皮书”。

下载链接:
总线级数据中心网络技术白皮书
超融合数据中心网络
中国联通的开放网络研究与实践
中国联通开放硬件网络设备白皮书
白牌网络及交换机白皮书汇总
1、掘金云数据中心白盒化趋势.pdf
2、商用交换芯片SDN支持现状分析.pdf
3、未来网络白皮书——白盒交换机技术白皮书.pdf
4、协议无关交换机架构技术与应用白皮书.pdf
5、中国联通开放硬件网络设备白皮书.pdf
6、中兴通讯CO重构技术白皮书.pdf

来源:全栈云技术架构



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。

温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一文读懂今年财政政策:赤字率提至3%,专项债提至3.8万亿元开源设计系统 PatternFly 的 5 个最佳实践 | Linux 中国文革批知识私有为的是缩小差别29号起!回国不再查验核酸!驻美使馆发布最新指南!一文读懂最新流程!一文读懂:难治性高血压逐步诊疗法胰岛素名称中的“R、N、30、50”都是啥意思?一文读懂“胰岛素的分类与作用特点”详解:一文读懂IPO企业招股说明书!柏林工大也有自己的Döner店了!一文读懂跨境电商产业链结构、分销体系、物流模式让商家/达人/用户都放心?一文读懂什么是抖音电商“无忧服务”为什么SVB破产,不能简单与08年金融危机划等号?一文读懂一文读懂到底什么是CMA?对财务的帮助大吗?一文读懂新能源汽车产业链一文读懂全国5A景区消费账单6000万粉的明星自创品牌被“骂”上热搜,是因为不懂DTC一文读懂:他汀类药物相关肌肉症状应如何管理?一文读懂,急诊心肾综合症的治疗策略全球顶级投行2023年展望总结,一文读懂投行新趋势!匹兹堡租房|奥克兰还是松鼠山,一文读懂匹兹堡租房那些事英国这么多经典历史剧怎么看?颈长超推荐,一文读懂加拿大2023年联邦预算案公布 一文读懂其中亮点!一文读懂,现有心衰药物治疗的机制及应用一文读懂新型储能技术(图解)一位永恒的女性逛圣诞集市 | 布拉格从画笔到像素:一文读懂AI绘画的前世与今生一文读懂,老年稳定型心绞痛的药物和非药物治疗我们家的炒股历程 续马云为什么选择今天回国?!一文读懂!一文读懂2023年光伏产业发展夜试新茶兼怀故人内存数据库DragonflyDB 1.0正式GA,性能是Redis的25倍深度好文|全球顶级投行2023年展望总结,一文读懂投行新趋势!5年酸甜苦辣告一段落,Ardern的下一步:联合国秘书长?一文读懂她的从政生涯!英国医学专业难申?攻略来了!一文读懂医学专业录取要求!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。