北京2021年10月21日 /美通社/ -- “推进教育新型基础设施建设构建高质量教育支撑体系的指导意见”明确将高性能计算平台(以下简称“HPC”)定位于“智慧科研设施”领域之中。HPC作为高等院校教科研的关键算力平台,其在气象预报、地质勘探、生物科学以及宏观经济预测等教学、科研的过程中已经成为一个关键抓手。
HPC备受高等院校青睐,其最初的动因来自于科学研究领域中,人们对于“第三范式”,即计算科学的依赖。伴随着大数据、人工智能等领域在教学科研中所扮演的角色越加重要,以及关于科研领域“第四范式”,即数据密集型科学议题的出现,使得当下高等院校对服务于科研领域的核心算力平台有了新的需求。
以传统HPC为代表的高校科研算力平台,正在朝着既能满足HPC,又可以实现AI、大数据等计算服务的算力平台 -- “智算中心”演进升级。浪潮前瞻性地提出了“智算中心”,其在高校构建智慧科研设施的过程中,满足了师生们在教学与科研的过程中对多元算力的要求。算力平台对于底层网络基础设施,在架构、性能、运维等方面提出的挑战伴随算力多元化而来。浪潮网络依托浪潮集团在“智算中心”领域所拥有的整体实力,作为中国创新型网络产品、技术、方案供应商,针对智慧科研设施HPC算力平台的新需求、新趋势,推出了“高等院校HPC网络解决方案”。
HPC+AI 科研算力平台面临的升级之“困”
高校在围绕“智算中心”构建智慧科研基础设施的过程中,一方面要解决当下现有科研算力分散的“短板”,同时还面临如何化解全新多元科研算力对于底层网络平台提出的挑战。
长期以来,部分高校的HPC建设并未得到有效整合,造成算力资源利用效率不高、平台运维管理繁重。与此同时,AI、大数据应用的激增,加剧了科研“算力孤岛”现象的增多。通过整合现有科研算力,不仅能够充分释放算力效能,同时在算力能耗、运维管理等方面也会带来质的改变。
网络基础架构作为科研算力平台的关键一环,面对算力多元化、巨量化的发展趋势,其在架构、技术上需要做出全新的改变。在国家信息中心联合浪潮所发布的《智能计算中心规划建设指南》中,围绕科研算力平台建设指出 -- 针对HPC、大数据以及AI等应用需求,现有的数据中心网络在弹性、可扩展性以及功能灵活性等方面都存在不足,难以胜任当前科研算力这类大规模计算集群的需求。
科研算力向“智算”升级 网络基座需先行
作为全球领先的HPC解决方案提供商 -- 浪潮为高校提供的科研算力平台,具备从计算节点、异构加速、并行存储、高速网络、集群管理的全栈解决方案。而浪潮网络围绕科研算力平台的应用特点和技术难点,在网络架构、技术及设备选用等维度,提供了完备的解决方案。
为了有效支撑异构算力平台,例如AI、大数据等应用的需求,以及满足数值计算的HPC应用所需,浪潮网络在整体架构层面,采用Spine-Leaf网络架构设计,替代传统的胖树结构,构建端到端无阻塞、无收敛的高速数据转发网络。在此基础上,浪潮网络通过提供支持 RoCE的网络设备,在以太网上实现了RDMA 功能,为HPC这类数据密集型计算任务提供了超低的数据延迟高速交换和高效的网络资源利用率,在绝大部分HPC场景中可有效替代传统上昂贵的基于Infiniband的解决方案,同时浪潮网络的HPC解决方案已在大量的985、211院校得到规模应用。
在浪潮网络HPC解决方案中,CN12900、CN9000、CN6000等高速低延迟数据中心交换机,在无损以太网、支持RoCE等方面的特点,为高校科研算力平台构建起一套具备高冗余、低延迟、无阻塞的网络基础平台。整套解决方案不仅确保了科研算力平台高速、安全、稳定运行,同时其所具备的灵活、弹性的系统升级、扩容能力,也使得科研算力平台的投入更加合理可控。