omniture

档案大数据来袭

2014-04-29 16:18

据统计,我国“十一五”末馆藏档案已达到39264万卷(件)。随着社会活动快速加强、网络信息化日益普遍,移动互联、社交网络、电子商务大大拓展了网络的疆界和应用领域,悄无声息,大数据时代已经来临。我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。

一、什么是档案大数据

档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。

我们通常理解为大量非结构化数据(包含所有格式的办公文档、文本、图片、图像和音频/视频信息等等)和半结构化数据(结构方面缺少统一规律的数据),这些数据在获取并用于分析时会花费过多时间和金钱。

档案大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有较高价值的饱含历史意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。也就是我们不仅要拥有一座矿山,还要通过各种手段发掘、开采、提炼出高价值的产品。方法和手段不一样,产出的价值是不同的。

档案大数据的特点:数据量巨大、数据类型繁多、价值密度低、处理速度快。

数据量巨大:以“十一五末”我国的馆藏档案量已达到近4亿卷,以每卷3厘米厚度。我国的馆藏档案能把长江从源头至入海口码个来回。根据估算我国档案正以每5年40%速度递增。

数据类型繁多:档案涉及政府机关、集团企业、金融、通信、建筑、房产、教育、军工、法院等行业。这些行业运行不同的业务,产生档案数据是各不相同的。如文档、设计图、照片、录音材料、视频、GIS信息、水文气象信息等。这些不同的文档又存在一定的关联性。比如城市建设的平面图、设计图可以和GIS数据信息关联,同时还要关联政府建设规划文件、批复与施工文件等。这些不同类型的数据不同程度上对数据的处理能力提出了更高的要求。

价值密度低:价值密度的高低与数据总量的大小成反比。如保险档案,我们会把保险单逐一存档,但发生理赔的概率是极低的。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

处理速度快:这是大数据区分于传统数据挖掘的最显著特征。在海量的数据面前,处理数据的效率就是企业的生命。档案大数据也是如此。

档案大数据与互联网大数据有着相同的特点,从档案本身属性看其特点还表现在一方面可以提供政府企业运行的依据,支持核心生产力与应用,另一方面档案仍对合规、电子取证、安全、诊断以及其他支持性应用程序有相当大的价值。

二、档案大数据的产生

过去,档案检索主要依靠手工著录、卡片检索。随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。档案数据主要来源于两个方面:1、各业务部门通过业务系统产生的业务数据转为档案数据;2、档案部门通过人工填写、录入、搜集归类后转为档案数据。

新形势下业务系统产生的档案数据具有及时、广泛、数据量大、内容繁杂的特点。较为智能的业务系统能够随时将业务数据输送至档案部门存档,如办公系统、财务系统,当文件办毕时,数据(文件)可立刻转为档案数据。不同职能的业务部门产生的档案更具有广泛性,如法院卷宗、医院病历、人事档案等,不同的立档部门产生不同的业务档案。我们的业务系统时刻运行,意味着每时每刻都会产生档案数据,因此档案数据量会大得惊人。即便是同一个业务部门产生档案数据,也会由于档案门类、信息元不同,形成的档案数据不同。

档案部门除了采用业务系统收集档案数据以外,还采用人工方式生成档案数据。最常见的是将馆藏的实体档案通过数字化技术转为档案数据,如扫描、拍照等。我国的档案信息化在未来几年将得到快速发展,信息化将呈几何级增长,形成真正意义上的档案大数据。如图:

 因此,我们应从档案大数据的源头充分考虑未来的应用范围,把握档案数据“快、广、大、乱”的特点,把来得“快”的档案数据及时处理,把产生“广”的档案数据各个击破,把存量“大”的档案数据化整为零,把内容“乱”的档案数据有序归类。

三、档案大数据的存储

档案大数据给传统数据仓库架构带来了一系列的冲击和挑战,仅从存储层面来审视,仓储的构建者不得不面对来自两方面的焦虑:一是数据规模急速增长,现有的共享磁盘架构能否适应海量数据的存储;二是数据结构复杂多样,现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。 

面对大数据的挑战,在技术上航星科技将如何解决大数据的问题呢?从现有数据库存储架构来和实践研究看,一个大而全的存储架构似乎不能完美的解决大数据的存储。大部分企业更应该偏向于让不同种类的数据存储在最适合他们的存储系统里,再将不同类型的数据进行融合,最后在融合的数据基础上做商业分析。

首先,必须有足够的空间存储数据。对于大数据,当企业在快速增长数据的背景下要保持数据的一种平衡状态并实现易扩展,应采用分而治之的思想,即构建分布式存储系统,方便增加节点实现稳步处理。

其次,兼有多种结构的存储引擎。大数据的结构复杂多样使数据仓库面临的源数据太过繁杂,此时应改变目前以结构化为主体的单一存储方案,对非结构化数据采用分布式文件系统进行存储,对结构松散无模式的半结构化数据采用面向文档的分布式key/value存储引擎是最适合的解决方案。

最后,航星科技建立连接多种存储引擎的“连接器”。通过这个“连接”来建立分布式存储与分布式文件系统之间的关系。我们存储多元化的数据主要是为了集成分析,而多种结构的孤立存储显然不是集成分析的最佳选择。通过构建连接器,使得非结构化数据在处理成结构化信息后,能快速融通和分布式数据库中的关系型数据,达到对大数据敏捷分析。

四、档案大数据的应用

传统的档案信息管理一直停留于档案目录管理、分类、归档、存储及简单的统计查询,档案大数据的关键信息需通过一定的技术方法进行提取,并针对提取出的有效信息根据一定的规律进行挖掘。只有满足不同档案用户的信息需求,数据挖掘技术才会发挥巨大作用。在海量的档案信息挖掘中主要采用文本数据挖掘技术,这相当于文字分析,一般指文本处理过程中产生高质量的信息。

文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;文本挖掘有两个主要应用领域,信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。如图所示:

 总之,我们可以把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现知识与信息都看作是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小范围,从而提高其效率和准确度。

在档案信息化领域,知识管理的发展主要包括认知、信息积累、知识挖掘、知识运用、规范化发展五个步骤。通常结合信息检索、分析及挖掘技术,将信息进行适当的分类及抽取或形成一组问答序列,并将这些信息进行提取,形成解决某一问题域的数据集市,挖掘出一定的专门知识,作为决策的依据。

档案知识的输出和评价还需要高效快速的辅助智能检索技术。

(1)基于语义检索。提供计算机可以理解人类语言后的一种搜索模式。

(2)基于音视频内容检索。可以直接对音视频内容进行检索,自动识别关键帧,能够区分定位出一个视频中的不同的两段内容,减轻人工打点的工作量,提高视频处理的能力。

(3)档案智能化辅助分类。可从历史分类中智能提取档案分类,提高用户整编效率,实现文献的自动分类;系统可自主根据已有档案分类进行学习,促进以后辅助分类的准确度;支持多维度的动态分类;支持用户自定义分类展示。

因此,档案大数据系统平台总体架构应按照实际内容应用的流程实现,即从数据的采集、智能处理、数据挖掘与智能搜索应用平台三个层次实现。通过多类型数据采集平台进行数据采集,在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,最后在应用平台上提供数据挖掘结果的搜索平台和多媒体自动编研平台。

管理档案大数据较传统的档案数据,需要去改变管理流程与文化,很多企业不愿意改变传统的方式。形势已经来临,竞争对手可能已捷足先登,保守必将错失机会。

消息来源:中国计算机报