近日,由新一代信息技术产业研究院、赛迪未来产业研究中心共同主办,中国电子学会区块链分会、至顶科技联合承办的“2024未来信息技术大会暨首届数据要素创新发展论坛”于北京成功举办。
中国移动云能力中心高级专家徐小虎发表了“移动云高性能网络,智算时代坚实基础设施底座”主题演讲并在大会期间接受至顶科技采访。
AI基础设施要具备全新六要素能力
随着ChatGPT等文本生成大模型的问世,以及今年初发布的Sora视频生成大模型,标志着大模型从单模态向多模态的发展。这一演进导致智能算力需求呈现井喷式增长。全球范围内的人工智能(AI)基础设施建设迎来了高速发展期。据IDC预测,中国智算规模年复合增?率超50%。
徐小虎表示,面向AI的基础设施要在计算系统、存储系统、网络系统、电力系统、冷却系统以及维护系统六要素具备全新的能力。
具体而言,包括以GPU为主的异构算力 (如GPU、FPGA、ASIC等)打造的加速计算系统;为支撑AI训练过程中Checkpoint数据的高速读写要求,高性能的并行文件存储是刚需;为实现加速卡的高速互联以及高性能并行文件存储,高性能网络发挥关键作用;高性能就意味着高的电力能源消耗,需要新的电力能源和储能技术提供更多的更稳定的清洁能源供给。高能耗带来更高的散热要求,诸如液冷等更高效的冷却系统是支撑智算中心高效运作的关键;高性能算力、无损网络、液冷等新技术会带来新的维护要求。
高性能网络是保障AI训练效率的关键
徐小虎重点分享了AI网络建设方面的思考。随着大模型从单模态向多模态发展,业界主流AI大模型训练集群参数规模从千亿上升到万亿,集群规模也随之从千卡级别发展到万卡级别;AI训练过程中,AI集群内的GPU服务器需要进行大量数据的同步,完成服务器之间的数据并行和流水并行任务,这个数据同步过程完成的越快,GPU的利用率越高,因此AI网络的吞吐非常关键,目前业界主流AI大模型集群都已经采用单GPU卡400G接入速率,单GPU卡800G接入速率预计在明后年会逐渐成为主流;AI网络目前大多数采用RDMA技术,不论是IB还是ROCE,对网络丢包都非常敏感,有实验数据表明,1%的丢包率将导致网络吞吐下降50%,网络可靠性对于保证AI集群长期稳定训练至关重要;动态延迟增大会增大尾延迟甚至导致拥塞丢包,进而影响GPU利用率。
综上所述,为了保证AI大模型训练效率,需要超大规模、超高吞吐、超高可靠、超低延迟的高性能网络作为技术支撑。
目前业界通常采用的高性能网络技术还是RDMA技术,具体包括IB和ROCE两个技术路线。
传统的IB网络技术由于技术体系相对封闭,供应商较少、建网成本较高等因素,难以支持AI大规模建设需要。以太网具有开放技术体系,广泛产业生态等诸多优势,因此以太网替代IB支撑AI大规模发展逐渐成为业界共识。从2022年开始,业界头部网络芯片厂商陆续发布51.2T以太网交换芯片,主要面向智算网络市场。
但是传统以太网技术,比如基于数据包五元组哈希的逐流粒度多路径负载均衡技术和基于ECN/PFC的流量控制/网络拥塞控制协议,在适配智算网络流量模型方面存在一定的不足。“智算中心GPU之间流量模型和传统DC流量模型不一样,往往呈现流数少,单流大,高并发的特征,传统以太网逐流负载均衡机制与智算流量模型不匹配,在智算场景少数大象流情况下,容易导致部分链路拥塞而部分链路空闲,链路拥塞会导致动态延迟增大甚至丢包。
针对上述的智算网络流量特征,特别是大象流的特征,采用更细粒度的负载均衡机制,比如逐包粒度的负载均衡机制即包喷洒机制,是非常值得探索的方向。基于ECN/PFC机制的RoCE技术由于存在ECN/PFC参数调优难度大、PFC死锁和风暴等问题,只适合在小规模网络部署,面对万卡集群规模的AI网络场景,需要对传统以太网的流量控制和拥塞控制机制进行革新”。目前,国内外形成多个围绕AI以太网的产业联盟,如中国移动牵头的GSE联盟以及华为牵头的超融合以太联盟,均致力于改进以太网技术以满足智算网络需求。
移动云自研高性能智算网络,支撑万卡高速互联
顺应技术和产业发展趋势,移动云目前正在自研基于以太网技术的高性能智算网络系统,支撑万卡GPU高速互联,具体优势包括:
端网协同,网侧执行端到端路径带宽容量以及拥塞感知的逐包粒度自适应路由,实现无阻塞的网络;端侧DPU/RNIC实现包乱序处理、轻量化拥塞控制、网络拓扑感知集合通信库。
标准开放,坚持开放以太网技术路线,具备多厂商设备组网能力,同时,主导和参与智算网络相关国际标准,比如IEEE/IETF相关标准,主导和参与智算网络相关的国内和国际产业联盟,比如GSE联盟和超融合以太联盟。
生态丰富,与网络交换芯片、DPU/RNIC、白盒网络设备厂商深度合作,建立广泛产业生态。依托中国移动协同创新基地长三角区域中心(苏州)节点,协同产业链上下游共建共享,推进高性能网络技术和产业发展。
此外,结合移动云自研的SDN云网络系统,保证通算、智算资源的无缝高速连接,构建通智算一体化的云服务能力。
中国移动智算资源规划布局:“N+X”
移动云作为数字中国建设的国家队、主力军,移动云依托集团运营商禀赋优势,构建“4+N+31+X”算网资源体系,以及“N+X”智算资源体系。
为了适应AI需求,中国移动将智算网络资源规划融入算网规划,目前移动云已构建了全栈自主可控、行业领先的智算中心架构,形成了“N+X”智算资源布局体系。建设辐射全国的智算中心和区域性节点,另外,移动云还基于智算中心底层万卡高性能算力资源,构建了从高性能算力到AI训练推理平台到模型服务的全栈智算产品体系。以支持大规模万卡集群的训练和推理一体化需求。
“N节点指的是全国型N节点和区域性N节点,全国型N节点以大规模训练资源为主,优选低成本中心及国家“东数?算” 枢纽节点,满足全网跨省、跨区域、大颗粒的智算业务需求。 区域性N节点以初期训练、未来训推一体资源为主, 满足本省、本区域内智算业务需求。X节点指的是以快速满足本省及区域内的业务需求主要承载中小规模资源需求业务,推理型资源按需部署建设。” 徐小虎解释到。
可以看到,随着呼和浩特超大规模单体智算中心和11省12个智算中心区域节点的启动建设,中国移动将加快形成“N(全国性、区域性智算中心)+X(属地化、定制化边缘智算节点)”多层级、全覆盖智算能力布局,并结合高性能网络的技术优势,有望在AI时代在智算领域发挥更大价值。