北京2021年3月12日 /美通社/ -- HDFS(Hadoop Distributed File System)作为通用的分布式文件系统,可以提供高可扩展、低成本、高可靠的海量数据存储,并广泛应用于大数据存储和分析方向。
近年来伴随5G、物联网、人工智能等领域的快速发展,数据量规模不断增大,同时随着大数据应用的多样化发展,对数据的利用也更加成熟与深入,更大数据量以及更加灵活的数据处理场景对HDFS的数据存储与数据读写吞吐提出了越来越高的要求。
为应对这些挑战,浪潮着力研发与集成的面向分布式文件系统的智能存储管理技术Smart Storage Management(简称SSM)应运而生。通过多项新技术及特性来解决存储场景中的各类挑战,助力大数据产品提供更加高效、智能的存储解决方案。
现今存储技术面临哪些疑难挑战?
说到疑难挑战,首先当推基于异构存储介质的数据存储管理。从硬件平台来看, HDFS的设计初衷是基于通用的廉价硬件提供可靠、高吞吐的数据存储和访问。但随着硬件的迅速发展,传统的磁盘性能和存储容量都已达到瓶颈,新硬件如固态硬盘、非易失性内存和SMR磁盘等受到广泛关注。
目前,HDFS已有的功能和研究虽然可以兼容多类型的异构介质,实现对异构存储介质的访问和使用,但没有很好的机制让其智能感知不同设备的I/O特性,并根据数据的访问特征动态改变存储方式,在异构的环境下最大程度发挥各类硬件的性能优势。
其次则是面向大规模存储的容量压力。为了系统的可靠性,传统HDFS通过副本策略来保障数据的安全,通常默认为三副本,但存储利用率仅为1/3。如果使用纠删码(Erasure Code,EC)来替换副本策略确实可以提供与副本相同的容错能力,并使用较少的存储空间,但在典型的纠删码中如果要求存储额外开销不超过50%的话,相应的纠删码却会占用更多的计算资源,所以当系统面临存储压力时,用户常常希望将不常使用的数据使用纠删码存储,降低存储压力。
但目前的HDFS技术仅支持基于目录的副本到纠删码转换,转换后业务访问文件的路径将发生改变,并无便捷的机制自动化进行。
面向应用负载的自适应存储挑战也不容忽视。从上层应用来看,一方面在大数据Hadoop生态系统不断发展的过程中,HDFS因其自身的稳定可靠、简单易用、扩展性高等优点使越来越多上层应用和系统将其作为统一的底层存储,其上存储的数据类型和支持的分析负载也越来越多元化。
另一方面,在企业中不同部门和用户经常基于同一份全量数据进行查询分析,带来同一份数据服务多样的查询负载。在这种应用场景下,基于人工制定策略的存储优化就难以生效,势必需要提供基于应用负载的自适应优化技术来应对。
智能存储管理(SSM)技术 聚焦两核心、三场景、四技术、五特性
面对异构环境下如何最大程度发挥各类硬件性能优势的难题以及来自存储的数据类型和支持的分析负载越来越多元化与应用负载的自适应优化等方面的挑战,智能存储管理(SSM)提供了智能化的解决方案。
何为智能存储管理Smart Storage Management(SSM)?
概念上,智能存储管理(SSM)被定义为面向 HDFS的智能管理架构,主要提供针对新型存储设备、高速网络、新计算的存储优化与数据优化解决方案,实现端到端的数据管理服务,聚焦点可以概括为“两核心、三场景、四技术、五特性”。
『两大核心』SSM的核心是基于数据热度的智能化管理来实现自动化面向存储的全生命周期优化。在数据热度方面,典型的应用场景中通常80%的计算工作负载用于处理20%的数据,在动态变化环境中针对局部数据进行优化尤其困难。
面对该问题,SSM通过收集文件系统操作数据与状态信息,利用多项指标分析数据访问模式,从文件级别定义数据热度,针对热度信息统筹规划相应地优化数据管理方式。
在智能决策方面,SSM建立了基于规则的智能决策体系,围绕现有的大数据存储模式智能地构建了实用的解决方案。未来,SSM目标将利用历史数据和指标学习,从而使系统具有预测数据访问模式与持久学习能力,实现稳定可持续的智能化管理。
「三种场景」目前SSM在三种典型场景下表现突出,例如多存储模式。SSM适用于数据存储模式丰富的应用场景,可以提供更加灵活的存储模式选择;在数据优化上则提供了小文件合井、数据灾备、数据压缩等新功能,适用于对数据优化有需求的应用场景;智能化管理是面向大规模集群的数据管命周期的自动化管理。
『四项技术』SSM主要通过四项技术实现智能的存储管理,主要包括通过分布式集群自治技术解决管理服务的高可用问题来实现存储管理集群去中心化;利用分布式事件驱动技术实现面向高并发场景的轻量级计算服务与监督机制,提升管理操作执行效率与容错性。
基于规则的智能存储管理技术解决存储数据量巨大、数据增量高、数据类型混杂难以管理的问题,实现数据生命周期的智能化管理;凭借数据热度感知技术解决存储资源利用不均、资源浪费问题,实现数据冷热分层等。
『五种特性』面向用户场景,SSM最终体现为五类典型的特性增强,主要包括如下:
总体来看,智能存储管理(SSM),以数据热度识别及智能化的决策体系为核心,配置面向应用场景的技术优化整体方案(异构存储增强、纠删码增强、小文件合并、自动化灾备、透明化压缩),自动化智能化的解决HDFS存储面向异构介质、存储空间及应用负载等方向的挑战,大大提升HDFS分布式存储的易用性及适用场景。
基于智能存储管理(SSM)技术 浪潮云海Insight带来更优体验
作为面向海量数据存储、计算、挖掘的一站式企业级大数据解决方案,浪潮云海Insight大数据平台采用新型技术架构可承担企业大规模数据的采集集成、多样存储、规模计算以及智能分析挖掘等工作,支撑企业数据中心业务模型快速落地,助力企业信息化智能转型。
具体来说云海Insight团队从客户需求出发,结合业务场景对智能存储管理技术(SSM)进行全面的方案验证及增强,最终在大数据平台中将智能存储管理技术产品化,包括智能存储的一键安装、可视化运维、基于票据的认证架构等,解决了用户针对大数据平台的备份灾备、数据生命周期管理、小文件合并等技术的诉求,提供了更优秀的用户体验。
举个例子,某客户的业务场景中,云海Insight团队将其近两个月的访问频次高的数据定义为热数据,使用三副本存储;后四个月的访问频次低的数据定义为冷数据,使用纠删码存储。通过SSM定义数据热度判定策略以及完成自动化的文件及从副本到纠删码的转换,最终总存储空间节省三分之一,且业务无需任何改变,大大提升了系统的可用性。
经过多方实践验证,面向HDFS的智能存储管理技术能够免去外界触发完成数据管理并进一步细化管理粒度,实现一次规则定制即可完成数据生命周期管理的解决方案,达成效果:
随着大数据与人工智能的蓬勃发展,人工智能赋予存储管理无限可能,利用智能算法提高大数据的调度和智能管理能力已成为技术发展的必然趋势。未来,智能存储管理技术(SSM)将基于深度学习优化计算框架,浪潮云海Insight也将进一步从整体上提升存储管理的智能化水平,为用户提供更优秀的解决方案。