北京2021年11月17日 /美通社/ -- 随着信息技术的飞速发展,高性能计算已成为继理论和实验之后开展科学研究的第三大支柱,中国高校信息化进程走过二十余载,从最初的校园信息化建设到如今的智慧校园,数字化转型下的高校教学、科研、管理和服务对算力的需求也在不断攀升。
中南大学是教育部直属全国重点大学、国家“211工程”首批重点建设高校、国家“985工程”部省重点共建高水平大学和国家“2011计划”首批牵头高校,2017年9月入选世界一流大学A类建设高校。中南大学智算平台作为一个硬件先进、功能齐全、资源丰富,面向全校师生提供高性能计算服务的开放性公共服务基础设施,一方面为学校的基础研究、前沿科学技术研究,促进科学探索和重大发现提供算力支撑,另一方面为促进学校的“双一流”建设以及学校改革发展的“四个转型”夯实基础,以期在基础研究和科技前沿领域有所突破,从而进一步提升学校整体科研水平。中南大学智算平台目前拥有高达上千台各种类型的计算服务器,一方面满足了科研人员大量的计算资源需求,另一方面大量集中部署的计算服务器集群对管理和运维人员提出了新的挑战。
传统运维盲人摸象,成本高企
中南大学智算平台的硬件资源十分丰富,基于传统运维模式已无法对计算服务器集群的算力进行管理、调度和科学合理分配计算资源,算力应用处于黑箱模式,类似于盲人摸象,不清楚、不清晰,无法实现对计算集群快速而精准的有效运维,也造成了运维人力资源的沉重负担。随着高性能计算服务器集群规模越来越大,运维人员的工作量与日剧增,大量重复冗余的枯燥工作难免挂一漏万。由于运维人员缺乏自动化的运维管理工具,借助经验诊断故障,极易造成故障的漏判、误判。因此,中南大学智算平台迫切需要一个统一集中的自动化智能运维管理平台,将监控与运维进行有效整合,实现平台的自动化智能管理和运维。
另外,计算服务器、计算网络、存储系统等设施在不断消耗大量电力,UPS、新风空调系统等机房设施也需要能源开销,这些都导致智算平台的运行成本高企,计算服务器数量越多,运行维护成本就越高,如何对平台进行精细化的能耗管理、实时获取计算服务器和机房的能耗信息,从而进行计算资源的科学管理和调度,也是目前业界亟待解决的重要问题。
精确纳管,运维效率大幅提升
针对传统人力运维管理面临的窘境,浪潮信息提出了以ISPIM (Inspur Physical Infrastructure Manager) 浪潮信息物理基础设施管理平台为核心的自动化运维解决方案。ISPIM平台是浪潮信息根据市场需求,遵循NFV标准,自主研发的一款高可用、高性能、高可扩展、高可维护的行业数据中心物理基础设施管理平台。该平台具备资源管理、故障监控、性能监控、能耗管理、报表统计、拓扑展示、服务器故障诊断、自动报修、固件升级/配置、OS部署等功能,可保障数据中心安全、可靠、稳定的运行。
通过实地考察、调研并与中南大学HPC平台管理和技术人员进行多次反复的交流、沟通和分析、研究,浪潮信息研发工程师最终决定以“1+1+N高可用模式”,在5台服务器上部署ISPIM系统,主动采集频率为45min,监控指标可达150W+,覆盖智算平台内的所有设备。ISPIM系统高可用模式部署的示意图如下。
通过ISPIM提供标准的北向接口与CE(Cluster Engine)高性能平台对接,可获取到集群计算节点中CPU、GPU、内存、网络、负载等性能信息及计算节点状态,实现算力的统一分配、调度、管理,配合内置的浪潮信息管理驱动软件Teye,可实现对设备带内性能指标的秒级实时采集及历史信息汇聚。此外,ISPIM平台还具备全网设备硬件状态监控、性能指标实时监控的能力,基于浪潮信息故障专家库,联通浪潮信息360度专家服务,实现了浪潮信息服务器智能故障诊断、故障根源定位、专家维修建议、设备自动报修等一系列自动运维功能,帮助运维人员实时掌控设备状态,提高运维效率,缩短维修周期,同时极大程度上避免故障误判,能够对故障进行及时且有针对性的处理。
自动化智能运维,魅力四射
浪潮信息ISPIM系统基于AI算法,对采集到的所有设备的能耗、温度、气流、CUPS以及机房环境数据进行实时智能分析,推送能耗管理与优化建议,通过可视化拓扑呈现,3D建模展示数据中心内机柜位置、位置、功耗、温度状态信息,实现对整个数据中心的细粒度管理。
一方面通过部署浪潮信息ISPIM系统,中南大学智算平台实现了集中自动化管理,大大减轻了运维负担,通过对算力数据的精准获取、调度,使得算力的管控集中化、智能化,另一方面通过对平台的监测,实现能耗可查、可管、可控。运维人员通过ISPIM平台可随时随地监控整个平台的运行状态,故障报警能够以秒级的速度精准定位,保障中南大学的智算平台高效有序运转,节约了人力资源,运维效率大幅提升。
随着整个社会数字化转型进程的加快,大型企业或组织对大规模计算服务集群的需求与日俱增,数据中心事实上已经成为组织的核心生产力和重要资产。浪潮信息ISPIM平台可同时实现对数万台不同品牌服务器、存储、网络设备等设施的统一监控、运维和告警管理,保障客户大规模数据中心安全、稳定、可靠运行。用户普遍反馈,浪潮信息ISPIM平台在推进新基建、领跑数字化转型方面魅力四射,极具推广价值。