北京2020年11月20日 /美通社/ -- 11月19日,在2020全球超算大会(SC20)上,浪潮发布新一代HPC集群管理平台ClusterEngineV5,支持超算中心HPC及AI计算负载,提供涵盖硬件运维、业务管理和应用性能分析的全栈式高效管理,帮助系统管理者轻松管理上万节点,大幅提升HPC集群的资源利用率和应用计算效率,满足面向未来的新型超算中心的创新业务增长需求。
近年来TOP500超算榜单中,近30%系统拥有加速卡/协处理器,也就是说,越来越多的超算系统配有大量低精度算术逻辑单元,用来支撑人工智能计算能力需求。可以预见的是,未来超算中心将承担更多的AI计算负载,这给超算中心的运维管理带来了更大的挑战。传统HPC集群管理软件通常是面向HPC负载设计的,往往只能管理单一的硬件或业务,而且监控数据不能打通。为了帮助超算中心更高效、更方便地管理HPC和AI负载,浪潮推出了新一代HPC集群管理平台ClusterEngineV5,包含硬件运维、业务管理、应用性能分析三大模块。
面对底层硬件,ClusterEngineV5提供一体化硬件运维监控平台,实现服务器、存储、网络设备的全生命周期自动化运维,有效地帮助用户提高运维效率、降低运维成本。平台可实现7*24小时大规模硬件监控管理,快速识别200+类问题,内置30000+专家级大数据规则库,快速诊断故障根因并提供解决方案。同时可以自动监测数据中心功耗,进行智能分析、远程控制、功耗管理,帮助用户节省30%以上的功耗。
面对核心业务,ClusterEngineV5为上万节点HPC集群提供稳定、高效、易用的HPC业务管理平台。可实现HPC和AI应用的统一管理,作业提交流程极简化。并能根据用户业务需求实现灵活的作业调度和管理策略,保证资源充分利用。同时支持容器化,用户可快速部署应用,在多节点并行计算时,保证各节点系统环境一致,并且可通过容器快速部署开发环境,提升开发工作效率。
并且,ClusterEngineV5提供独有的HPC应用性能分析工具,帮助用户诊断应用瓶颈,提升HPC应用优化效率及质量。该工具可对异构集群进行全方位性能分析,针对AI计算提供函数级应用性能分析,及时定位性能异常,帮助用户深入分析和发现计算性能优化空间。基于该工具的分析结果,用户可结合自身平台的资源使用情况及设备特征,提升应用计算效率及资源利用率。
浪潮ClusterEngineV5打通了硬件监控、业务管理和应用性能分析,提供了一套面向HPC与AI应用场景的全栈式超算中心管理解决方案,涵盖全生命周期集群硬件智能运维、全方位集群监控、应用性能监控、异构集群算力调度分析和调优等,帮助管理人员高效管理HPC和AI负载,降低集群部署和管理门槛,提高资源利用率和计算效率,实现降本增效,推动面向未来的超算中心业务创新。