北京2022年5月10日 /美通社/ -- "亚健康"这个词不仅在生活中被熟知,而且大家经常使用的信息系统中也会经常遇到;亚健康状态,顾名思义,是存储系统介于健康状态和故障状态之间的一种状态,系统仍在运行且功能正常但处于降级模式的一种情况,它的存在会造成系统性能严重低于预期。浪潮存储基于对亚健康状态的研究,在分布式存储平台进行技术创新,研发了亚健康状态监控功能,对硬件、系统、网络等进行实时监测,当系统发现运行过程中存在亚健康状态时,可快速定位原因、上报、并对处于亚健康的部件进行必要的处理,降低亚健康状态对存储系统的影响,保障用户数据服务的可靠、高效。
过去因大部分应用系统规模较小,一般会将亚健康状态划归到故障进行处理,系统在这种情况下虽处于亚健康状态,但仍可以对外提供服务,处于亚健康的部件却被当成故障处理扩大了亚健康状态的影响范围,有时甚至会导致系统不可提供服务,也造成了资源浪费。近年来,随着新技术的快速发展,以及分布式系统部署规模的增加,亚健康状态对于存储系统的影响已经越来越显著,之前亚健康状态处理方式已经不适合现在的大规模系统,亟待更加智能、高效的机制来保障存储系统健康运行。
亚健康状态是隐形的系统杀手
以网络亚健康为例,网卡故障、驱动程序故障、设备故障、接线松动、温度过高过低等都可能引起网络亚健康状态,尽管产生网络亚健康状态的原因众多,但其对外表现的现象相对简单,主要是网络时延的增加和网络丢包率的增加。如下为网络丢包率和时延对分布式存储系统性能的影响。
在一个分布式存储系统中,单个节点网络丢包率或网络时延增加时,存储系统的性能会极快速的下降,5%的丢包率或50ms时延,就足以使存储系统性能下降一半左右。
从网络亚健康实例中可以看出,亚健康状态对系统的危害,即使一个微小的亚健康状态,对系统性能的影响都是巨大的。此外CPU、内存、硬盘模块、网卡等硬件部件、操作系统以及软件运行均有可能进入亚健康状态,
浪潮存储基于大量来自企业、大学、实验室等案例的亚健康状态的研究,进行了故障分类和根因分析,可以看出,硬件亚健康故障占比33%,网络亚健康故障占比38%,这两类故障占比超过整体的70%。
亚健康状态监控让分布式存储运行更稳定
基于对亚健康状态的表象根因等分析与研究,浪潮在分布式存储上实现了亚健康状态监控功能,对硬件亚健康状态、系统亚健康状态以及网络亚健康状态的实时监控,当系统发现运行过程中存在亚健康状态时,可快速定位亚健康状态的原因、上报故障、并对亚健康的部件进行必要的处理(如尝试恢复、隔离部件等),最大限度的降低亚健康状态对存储系统的影响。
浪潮分布式存储AS13000配置了亚健康状态监控之后可以进行亚健康状态监控告警服务的同时还具有诸多优势。
首先,精准定位。亚健康状态的场景复杂,症状、根因众多,检测难度大。亚健康状态监控系统通过建立硬件亚健康检测、网络亚健康检测以及系统亚健康检测的机制,有效的覆盖了亚健康状态的各种检测场景,再加上检测信息的精准分析,能更精准的定位亚健康状态。
其次,快速处理。存储系统长期以亚健康状态的状态运行,会影响整体性能,监控功能可以在短期内发现亚健康状态,并及时做出必要的处理。以往为了确保系统运行的稳定性,运维人员预计需要每周执行一次巡检脚本,对整个集群进行健康巡检。这种方式一方面时效性差,平均3-4天才可以发现问题;另一方面是巡检脚本检测并不全面。亚健康监控可以150秒内发现网络亚健康状态并进行网口隔离处理、30分钟内发现系统亚健康状态并告警、60分钟内发现磁盘温度异常并告警等;平均发现系统亚健康状态并处理的时间缩短了四分之三,并且检测的项目更全面、结果更准确。
具备亚健康状态监控功能的分布式存储AS13000,已经在金融、通信、教科研、医疗等行业规模部署,在运行过程中亚健康状态监控功能快速响应机制,降低了亚健康状态对存储系统的影响与运维成本,保障了企业业务稳健运行,让企业轻松应对数字经济时代的海量数据挑战。