北京2022年8月12日 /美通社/ -- 随着经济社会加速数字化转型,大数据、云计算、人工智能、区块链等新一代信息技术快速兴起,智慧政务、金融科技、智慧交通、远程教育、智慧医疗等应用加速落地,办公文档、图片、视频、音频、设计文档、日志文件、机器数据等非结构化数据爆发式增长,企业和组织愈发重视海量非结构化数据的管理与应用。如何依靠底层技术让海量非结构化数据的管理和使用更简单?无处不在的元数据给出了答案。
什么是元数据?
元数据是关于数据的数据,人们身边的一切信息和资源都可以用数据来描述,元数据则是从数据资源中抽取用来说明其特征和内容的结构化数据,用于组织、管理、保存、检索信息和资源。虽然人们看不见元数据的存在,但它却无时无刻不伴随左右。人们平时所津津乐道的大数据,也是基于元数据来计算的。
企业和组织可以基于元数据对海量非结构化数据进行管理,例如获取后缀名为jpeg的所有图片文件列表、获取文件大小大于10M的文件列表、获取给定日期之前创建的文件列表,在快速获取符合条件的文件之后还可以高效管理对应的数据。而如何更方便快捷地查找到非结构化的文件成为分布式存储面临的全新挑战。
传统检索方式较为简单粗暴,难以应对文件多、目录层次深、检索条件复杂等挑战。例如Linux中的find查找,对象存储中的前缀检索,都只能遍历所有文件进行筛选,功能上不能满足多样化的检索需求,检索字段有限,检索方式单一;还有性能上也影响了底层元数据管理服务的检索能力和检索效率。
浪潮分布式存储基于对元数据检索的研究,在分布式存储平台AS13000上进行技术创新,在对象、文件、大数据三大非结构化存储场景,研发了元数据检索功能,支持对文件名称、路径、类型、大小、自定义元数据、创建时间、修改时间、用户(组)、桶等关键字段进行检索,以及支持基础检索和逻辑关系自定义等高级检索功能。百亿级文件,可以进行亚分钟级检索。
浪潮分布式存储:元数据检索的四大优势
浪潮分布式存储AS13000元数据检索能够同时兼容对象、文件、大数据三大非结构化存储场景,引入Elasticsearch作为元数据检索引擎,支持NFS、CIFS、S3、Swift、HDFS协议。
Elasticsearch是一个可扩展的RESTful风格的分布式数据检索和分析引擎,它能够快速且近实时地存储、检索、分析海量数据,通常用作具有复杂检索应用的底层引擎。
分布式存储+Elasticsearch,即为浪潮分布式非结构化存储AS13000元数据检索的核心。
文件的元数据信息会同步至Elasticsearch引擎中,基于此,企业的元数据检索命令通过协议转换,在Elasticsearch中检索出符合要求的文件信息。
比如,浪潮分布式存储具有更全面的协议支撑。浪潮分布式存储AS13000能够同时支持NFS、CIFS、S3、Swift、HDFS协议进行检索;同时支持企业自己的RESTful风格访问程序进行自定义元数据信息检索;
又如,具备更灵活便捷的检索方式。基于上述的结构,浪潮分布式存储AS13000实现了更为丰富的检索手段和快捷的检索速度,对数据存储本身的读写影响更小。浪潮存储支持的检索内容包括两个方面,其一,丰富的检索字段,包括文件名称、路径、类型、大小、创建时间、最后修改时间、用户名、用户组名、桶名,以及用户自定义的元数据信息,都可以作为检索字段。其二,多样的检索逻辑,支持大于、大于等于、小于、小于等于、不等于、等于等算术比较运算符,逻辑支持"并且"、"或者"等逻辑运算符。企业可以根据需求在检索界面上进行检索式的组装,且检索结果支持分页展示。
再如,更安全的元数据保护。为了保护企业的元数据信息,避免非法的RESTful请求恶意获取Elasticsearch中的元数据信息,浪潮分布式存储AS13000同时针对Elasticsearch进行了安全限制,针对Elasticsearch提供数据流加密,同时基于角色进行访问安全校验,保障元数据信息的网络安全。
最后,更便捷的对接方式。浪潮分布式存储AS13000不仅能够提供元数据检索服务,同时能够轻松对接企业的Elasticsearch引擎。如果企业原本就有元数据检索引擎,则可以直接部署浪潮分布式存储,对接企业的Elasticsearch,不需要企业更改原本的检索手段,实现无缝切换。
具备元数据检索功能的浪潮分布式存储AS13000,已经在金融、通信、教科研、医疗等行业规模部署,为企业提供更简单、更丰富、更便捷的元数据检索方式,让企业轻松应对数字经济时代的海量数据挑战。