北京2022年8月8日 /美通社/ -- 据工信部发布的信息显示,我国近五年算力年均增速超过30%。其中,在用数据中心的服务器规模为1900万台,存储容量达到800EB(1EB=1024PB)。面对算力、存储的高速增长,网络作为数据中心三大关键要素之一,它的技术发展日益成为业界关注的焦点。
针对高性能计算、数据中心领域中的高阶网络互连技术发展,在由高效能服务器和存储技术国家重点实验室和开放计算中国社区联合主办的"第六期开放计算技术沙龙:网络技术研究与实践"线上研讨会中,来自清华大学的教授、博士生导师向东老师以《高性能高阶(High-Radix)网络互连架构及通讯协议》为主题,针对业内主流的蜻蜓网络(Dragonfly)架构以及相关的网络架构特点、优势进行了详细解读。针对Dragonfly网络适用于高端市场的应用情况,浪潮网络推出了更加具备市场贴合度的无损网络解决方案。以采用RoCE技术的数据中心以太网交换机为核心,具备网络流控、死锁消除以及存储即插即用等特点。
万级、十万级、百万级互连节点 彰显蜻蜓网络魅力
Dragonfly网络凭借较低的网络直径和较低的部署成本,已经在高性能计算领域得到了广泛应用。向东教授认为,Dragonfly网络所具备的特点,同样也适用于当下算力需求增长迅速、算力多样化的数据中心网络之中。"Dragonfly网络作为一个二级全连接网络,其网络设计成本远低于3-DTorus及胖树等其他网络架构,不仅适合于搭建超级计算机,同时也适用于数据中心。"向东教授说道。
当前,高性能计算的网络设计成本主要取决于机柜间的全局光纤数目,减少光纤数目及交换机端口数目是降低设计成本的核心要素。Dragonfly网络的拓扑结构可以将数据包传输路径的全局光纤数目降低为1。当高性能计算集群达到1万个计算节点以上的规模时,采用Dragonfly网络拓扑结构平台所需交换机芯片的端口数目仅需30多个左右。当集群节点规模达到10万时,采用Dragonfly网络拓扑结构的交换机芯片端口数目则在55左右。
Dragonfly网络是一个二阶全连接网络,分别由Router(路由器)、Group(组)以及整个System(系统)构成。Group中的Router与终端进行连接,Router之间实现Intra-group interconnection network全连接。与此同时,Group之间也实现了Inter-group interconnection network。其中,Group中采用电缆实现Router之间的互连,Group之间则采用光纤互连。
Dragonfly网络虽然在成本方面、降低交互芯片连接端口数量较低等优势,但是面对超算、数据中心计算节点的增多,包括Dragonfly、Dragonfly+等网络结构依然要面临网络连线较为复杂,网络总体设计成本仍然偏高,以及整体网络所需的全局光纤数仍然偏高等挑战。
向东教授及其团队为此研发设计出CLHR,即基于通讯局部化的高阶互连网络以及相应的路由算法。通过采用CLHR,一套拥有15万台服务器且采用Dragonfly网络结构的超算平台,其交换芯片端口数可控制在30个以内。当整体服务器规模达到100万台以上时,交换芯片的端口数量也可以控制在50个以内。向东教授指出,采用CLHR,相比二阶全联接的Dragonfly网络,端口总体数量得到有效降低。此外,数据通讯不需要虚拟通道,不需要设计Misrouting算法,任何节点间通讯可使用多条最短路径。
让智算普惠 无损网络释放更多价值
无论是高性能计算领域中较为普遍采用的Dragonfly网络,还是针对其进行优化、改进的CLHR,向东教授认为这些技术上的创新都是为了实现无损网络所作出的努力。以往,传统数据中心会采用无损网络技术,但面对数据中心的算力攀升、算力的多样化,向东教授认为打造无损网络已经成为一种趋势,这需要在网络架构的设计上更加精致,需要网络平台具备高效的流控能力、严格避免PFC死锁情况的出现。
目前,浪潮网络所提供的无损网络解决方案已经成功的应用到南京智能计算中心项目的建设之中。通过融合浪潮的计算、存储、网络和人工智能开发平台整体解决方案,构建端到端、无损、低延时的RDMA(远程直接内存访问)承载网络。
浪潮网络推出的无损网络解决方案,不仅有效的应对了智算中心算力增长、算力需求多样、存储指数级攀升的需求。同时,也为现有的高性能计算平台构建低延迟、高带宽的网络平台,提供了在性价比和未来发展前景上都不错的一种选择。