北京2024年12月26日 /美通社/ -- 根据调研报告显示,大规模数据中心每宕机一分钟将会造成近1万美元的经济损失,而数据中心的宕机成本随着近年来数据中心规模的不断扩大还在不断攀升,除经济损失外,宕机造成的业务中断对公司声誉有着不可估量的影响。"小病不治,大病难医",金融、互联网行业大规模数据中心通常每月都会为IT基础设施定期巡检,以及时发现可疑问题,快速修复,这已经成为保障数据中心业务连续性的关键。
日前,浪潮信息全新升级数据中心服务器故障智能诊断AIOps技术。针对数据中心服务器日常巡检中,故障人工识别效率低,难以精准定位的问题,浪潮信息基于数百万台服务器运维管理经验,打造先进的AI模型算法,融合专家经验知识图谱,构建覆盖问题检测、诊断、修复到验证的全生命周期故障闭环管理。在互联网、金融等用户数据中心部署应用过程中,服务器故障智能诊断AIOps技术涵盖国内外众多厂商的上百种不同型号的IT设备的各类故障,5万+服务器规模的数据中心,故障排查时间从4小时缩短至3分钟,有效应对数据中心规模不断扩大带来的运维管理挑战,为数据中心的高效、精准、智能化运维提供了有力支撑,也为客户的业务连续性提供保障。
数据中心服务器运维"体检"两大难:人工效率低、故障识别难
随着AIGC、5G、物联网(IoT)等技术飞速发展,全球大型数据中心数量将以3.6%的年复合增长率增长,数据中心规模不断扩大,在这一过程中,服务器的代际及品牌也越来越繁杂,需要运维工程师每月甚至每天定期对服务器故障进行巡检修复,这对运维工程师的需求大幅增加,从而提升了企业运维成本;同时,随着越来越多的核心业务系统迁移到线上,业务对系统的即时性要求不断提高,而且"小病不治,大病难医",日常定期巡检已经是保障系统的持续稳定运行的关键。
一方面,在传统运维中,为预防系统宕机风险,运维人员会定期对服务器进行日常故障巡检,通过手动筛查后台运行日志识别各类服务器故障,但这种人工方式的故障识别低效且时效性差。数据中心中服务器种类繁杂,品牌、型号、代际多样,加之海量的故障日志和报警信息交织,使得人工分析过程耗时长达数小时甚至数天。这种方式难以快速响应业务需求,严重影响系统的可用性和故障恢复效率。
另一方面,据数据统计,大型数据中心的实际运维中服务器最容易出现故障的三个部件分别是内存、硬盘、CPU,传统运维检测工具主要围绕在这些部件的监测上,但实际运维中仍然有一些小概率故障会出现在风扇、网卡、电源以及其他的元器件上,而这种小概率故障事件往往隐藏在复杂的运行数据中,传统工具难以精准捕捉这些信号。由于此类问题信号弱且不易察觉,未及时修复可能引发连锁反应,扩大故障影响范围,从而延长修复周期并降低系统的可靠性。同时,一些复杂场景下的疑难故障排查高度依赖专家经验,然而,运维团队往往缺乏足够的专家资源,导致问题长期得不到解决。这不仅拖延了系统恢复时间,还进一步影响业务的稳定性和用户体验。
打造"识别-诊断-处理"一体化AIOps服务器智能诊断体系
针对数据中心传统故障运维的挑战,浪潮信息以数百万级服务器统一管理经验,全新升级数据中心AIOps智能诊断技术。AIOps智能诊断技术兼容多品牌、多型号及不同代际服务器产品,通过轻量化设计将诊断模型部署至服务器端,实现了关键指标秒级感知与响应、故障根因精准诊断、解决方案秒级呈现的全链条智能,构建了覆盖问题检测、诊断、修复到验证的全生命周期故障闭环管理,全面助力数据中心智能、高效的运维管理。
数据中心AIOps智能诊断技术引入了时序数据分析与分离算法,从关键部件,时序时间以及使用情况三个维度进行交叉比对,在故障发生时实时筛选关键日志,打破了传统单一维度、单线程的诊断模式。通过特征提取与异常模式匹配,让检测的颗粒度更加精细同时更加精准,以便快速发现异常项,将传统故障诊断的时长从小时级缩短至分钟级甚至秒级。而这种海量数据的多维度的感知,就好像是我们的五感一样,不再是通过单一的触觉或者是嗅觉判读,而且通过"望闻问切"的方式全景化、自动化的快速定位问题节点,大幅提升故障响应效率,保障系统的高效运维。
作为全球领先的算力基础设施提供商,多年来浪潮信息在实践中积累了海量的故障处理经验,因此浪潮信息基于海量历史数据构建了故障诊断模型,并融合决策树、深度学习等多种算法,对隐匿的小概率故障进行精准识别,故障诊出率超过98%,高故障率部件故障诊断准确率可达95%以上,小概率故障诊断准确率提升至90%以上。同时,系统具备自学习能力,能逐步优化诊断规则,应对未知故障类型,有效提高系统稳定性与可用性。
浪潮信息将资深运维专家的经验转化为知识图谱,并与机器学习模型深度融合,推出"口袋模型"功能。该模型能够在秒级内提供最优解决方案和清晰的故障处理指引,帮助运维团队快速应对疑难问题,减少对专家支持的依赖,提升整体运维效率。
当前,该AIOps技术已广泛应用于金融、互联网等行业大规模数据中心,应用结果显示,在5万+规模的数据中心,服务器故障排查时长从4小时缩短至3分钟,对于一些小概率故障的诊断更能见微知著,有效避免了业务中断;同时,对于计算模块、存储模块等存在复杂关联关系的疑难故障问题,故障处理时间减少80%以上,极大降低了运维团队的工作压力。这些创新成果不仅提升了故障响应效率和诊断精准度,还增强了系统的稳定性与业务连续性,为企业数据中心的高效运维提供了全面技术支持,树立了智能化管理的行业标杆。