北京2021年1月28日 /美通社/ -- 日前,OCP社区公布了OpenRMC Design Specification v1.0(开放整机柜管理设计规范1.0版本),对整机柜的北向管理接口进行了规定,初步明确了设备管理中信息采集范围、数据呈现方式及采集模块的硬件部署选项,为智慧时代数据中心的自动化运维管理提供参考。
智慧时代数据中心运维复杂度提升
随着智慧时代的来临,数据中心上层应用负载的多元化与复杂化,以及人工智能、容器等新技术的不断引入,数据中心计算资源变得异构和池化,除了传统的CPU,GPU、FPGA等加速计算单元也在服务器系统中发挥越来越重要的作用。
异构设备给关键业务和数据提供有效支撑,也带来了下一代数据中心运维管理复杂度迅速提升,用户希望实现自动化部署、自动化巡检、深度故障诊断以及智能告警,进一步提升数据中心的可靠性和可用性,减少软硬件故障或者系统升级所带来的业务中断。
同时,计算资源的核心部件CPU、GPU处理性能虽然逐渐脱离摩尔定律,但多核心、先进制程工艺的采用,同样不断推高处理器和服务器的能耗。相当一部分数据中心运营成本耗费在了散热、供电所带来的能源损耗上,带来巨大的成本压力。
因此,提升数据中心能源利用率,推动绿色节能数据中心建设,已经成为提升数据中心竞争力,实现环境效益与经济平衡的重要方式。而传统数据中心运维模式难以对服务器的性能、功耗进行实时、细粒度的监控和统计,影响了节能降耗的效果。
OpenRMC提供未来数据中心运维参考架构
自动化运维是降低数据中心能耗,实现数据中心内部服务器资源配置优化的重要途径。近年来,OCP在这一方面进行了广泛的实践,包括如何在单位空间里提供更高的计算密度,如何通过统一的规范减少单一厂商绑定,如何快速响应突发应用需求等。要满足上述需求,弹性、模块化的数据中心整机柜设计和交付至关重要。
为提升下一代数据中心智能化运维能力,浪潮牵头在OCP社区成立了OpenRMC项目组,发布基于OCP标准的整机柜管理架构的解决方案,为各类数据中心,尤其是大规模、超大规模数据中心,提供了下一代开放技术管理方案。
OpenRMC解决的一个重要问题在于提升开放性。在传统数据中心运维过程中,用户往往会使用BMC 软件来辅助进行管理控制。但是BMC的产品是商用的,必须由指定的供应商进行维护,不但成本高昂,而且具有非常强的依赖性。要对新设备进行管理,只有等待BMC版本更新才能支持,这显然无法满足数据中心敏捷业务的需求。此外,闭源的BMC难以进行灵活修改,自由度较差。OpenBMC针对这些传统BMC缺点,提供了模块化软件架构便于新设备资源的增改,并使用C++、Java脚本等高级语言框架解决管理信息可读性、易访问的问题。
OpenRMC可以基于OpenBMC管理维护服务器内计算资源。除了OpenBMC技术的采用,整机柜的南向管理可以实现标准化,以统一的规范收集服务器内部的硬盘、电源等信息,机柜的Power shelf、架顶交换机等机柜设备信息;北向管理则通过控制呈现的方式,形成了一个标准化的管理方法,并计划未来满足安全、加密、资源池化等新业务的需求。
OCP中国社区联席主席、浪潮技术总监郭洪昌表示,目前,浪潮已经基于OpenRMC开发了系统级管理套件,实现整机柜高效管理。对服务器、存储等系统设备,机柜内的电源模块、风扇、网络交换机等模块,以及环境温度进行一体化统一监控,确保整个机柜内所有部件和设备的运行情况都能了如指掌,同时通过可视化设备详尽的展现出来,满足自动化运维的要求。在此基础上,浪潮以机柜内所有设备为对象,定义了北向管理的接口规范,并贡献到OCP组织,在OCP的框架内推动北向呈现与南向管理的接口无缝对接和有效通讯。
“我们希望通过 OpenRMC,扩展基于开源技术的整机柜管理系统,不仅帮助大规模数据中心,也帮助中小型数据中心整合异构设备,并实现自动化、精细化运维,从而降低其IT运维成本,简化管理方式并提高效率。”他谈到。
为满足数据中心的整体运维需求,浪潮还构建了物理基础设施管理平台 ISPIM,提供资产统一管理、设备实时监控、告警精准推送、设备自动巡检、无状态固件管理、智能能耗分析等功能,实现数据中心内部服务器、存储、网络设备统一智能监控运维。通过融合面向节点运维的 OpenBMC 技术、面向整机柜运维管理的 OpenRMC 技术,以及面向数据中心整体运维的 ISPIM 解决方案,浪潮能够帮助用户降低数据中心的运维难度,让数据中心运维更加绿色、智能。
开放计算生态企业积极参与OpenRMC
不仅仅浪潮,微软和Intel两家数据中心技术领域的领导厂商也在OpenRMC项目上贡献了大量的参考设计和代码。Intel公司在2014年,发布了Intel® RSD(Rack Scale Design)整机柜参考设计,旨在推广数据中心的资源池化及弹性部署的技术,以提高数据中心的资源利用率。作为OpenRMC项目的发起者之一,Intel把RSD机柜管理模块及管理接口API(RSD RMM REST API)开源贡献到了OpenRMC项目组,并提供了机箱、电源及散热等重要功能组件的参数获取的参考代码及获取方法。
Microsoft智能云Azure是全球最大的公有云平台之一。身为超大规模数据中心拥有者,以及云服务提供者,Microsoft公司不仅向OCP社区开源贡献了OCS和Olympus两种服务器标准,还把自己针对数据中心的管理经验向OCP社区做了分享,提出了RMC硬件的几种不同实现方法,并且对OpenRMC固件的软件模块化设计提出了自己的建议,并提供了获取机柜级组件状态信息、和管理监控的命令实例。
Intel和Microsoft贡献的代码和硬件参考设计,极大地丰富了OpenRMC项目的适用场景,并活跃了自动化运维的生态系统,为OpenRMC功能的广泛采用提供了基础平台以及信用保证。