深度分析 | 数据治理安全理论落地与实践（中）：AI 引擎自我迭代

2022-08-16 14:00

1.研究背景

随着近年我国半导体产业快速发展，人工智能技术不断积累迭代，软硬一体的智能芯片等核心技术研究取得重要突破，AI也在数字时代扮演着越来越重要的角色，正加速融入电信运营商、能源交通、医疗、教育、制造业、物流、直播等多个领域，加之“东数西算”新基建相关云计算数据中心大规模投入使用，带来 AI 算力的大幅提升，算力充沛，不断赋能创造出新业态、新模式行业场景，实现大数据集成的迭代创新，多场景智能应用，提高生产过程自动数字化程度，同时推动经济社会发展全要素智能化革新，释放数据要素红利，创新美好未来。

社会生产能够源源不断地产生海量大数据，但数据作为新型的生产要素，是通过不断采集、清洗、转换、分类、打标等流程完成整个数据资产积累过程，在这个过程中机器学习算法，尤其是深度学习算法，通过获得海量的数据，能够不间断进行密集型矩阵计算训练，训练可以帮助算法优化，实现AI引擎更新和升级，完成AI深度学习模型的进化，丰富行业知识图谱，提升数据质量，为AI提供优质可靠的“数据燃料”，从而进入到 AI 引擎自我迭代的全新阶段。

$\" src=$ 图1. AI 引擎分层架构图

2.AI引擎进入自我迭代阶段

当前，我国新基建建设强调产业融合，除了发挥数据的生产要素效能，比如：能源上下游产业打通并带动车联网、物联网平台迅速发展，节点传感器广泛连接也带来数据量的暴增，不断突破，促使数据存储处理相关的基础设施加速“扩容”，不仅实现数据在内部流动，甚至跨行业流动，还要推动数据要素跨越行业边界，组成全新的生态网络和价值网络，数据要素是企业组织数字化转型的成果。

那么，随之而来的是企业组织数字化转型，是要在解决数据要素生产的迫切需求的同时兼顾数据资产到数据要素的转化成本，能够让企业组织更快更好实现数据资产化的数据治理安全理论越来越倍受关注和重视，有助于提升数据价值。

根据IDC研究表明，到2025年，全球数据量将会从2016年的16 ZB上升至163ZB。著名研究机构Garter也表示，全球信息量正以59%以上的年增长率快速增长，在这些数据中，结构化数据仅占到全部数据量的20%，其余80%都是以文件形式存在的非结构化和半结构化数据，日志文件、机器数据等又占据非结构化数据的90%。对于企业组织而言，不仅面对已有的庞大冗余旧数据，未来还会有大幅激增的新类型数据，企业组织要管理和运用好海量的数据并对这些数据进行有效地挖掘，需要借助数据治理安全平台落地实践。因为具备AI引擎自我迭代能力的平台对数据识别分类的准确率能够达到90%以上，所以数据治理安全建设离不开AI 引擎助力，不断自我迭代的AI引擎才能消化掉海量数据。

$\" src=$

图2. AI 引擎的自我迭代

3.AI引擎的自我迭代之路

AI引擎自我迭代的过程是利用机器学习模型，模仿人脑的机制来解释数据，例如：图像、声音和文本，训练好的AI模型，能够自动提取字符集、词级、句子级的特征，结合上下文信息，完整的保留文本中短语级别特征信息，实现多源数据融合、数据采集频率、数据标准建立、数据质量管理，满足AI模型所需数据的规模、质量和时效，以提升模型拟合的效果。

首先是AI引擎早期小样本数据学习阶段。基于机器学习、自然语言理解和知识图谱训练所需的数据原料筛选需要人工监督，通过人工不断地提供结构化、特征化处理和数据质量的优化服务，根据数据特征和用户需求进行动态调整和反馈，知识图谱搭建也需要大量半结构化和非结构化数据支持来开展工作，在结构化数据基础上，将半结构化或非结构化数据纳入数据源并支持AI引擎分析使用。

其次是AI引擎进行数据分析阶段。数据质量的高度敏感要求，数据质量的优劣极大程度影响AI模型的应用效果，必须进行多维度的质量检查，以及对实时性高要求，实时数据分析、推荐和预警时，数据源更强调具备实时性接入能力。利用深度神经网络可以实现AI模型的自我更新和优化，尤其是视觉图像识别应用领域。比如：当传感器检测到产品存在时，光源触发并点亮产品区域，帧抓取器的数字化设备将这些原始数据转换成数字输出，然后这些数据作为数字文件由软件系统存储在计算机中，以供进一步对比分析预先输入的产品参数数据。如果这些数据有缺陷，AI引擎识别问题并学习如何解决，进行数据质量控制。

最后是AI引擎的自我迭代阶段。通过打造AI引擎对数据的闭环流通管理，建立数据采集和回馈分析的闭环式自学习体系，基于实时数据处理、实时特征开发和实时应用开发等数据架构的搭建，将流式数据的接入实时反馈到模型运行输出，使模型结果更加及时准确。达到AI模型上线后的持续迭代优化。为了让Al模型的预测结果更加准确，可将模型运行后的结果数据更新反馈给Al模型，利用实时闭环数据进行自学习，强化反馈回路以优化模型算法，防止模型效果因长时间使用而效果变差。比如，数据智能分类分级模型持续用旧模型预测新数据，不更新闭环数据反馈的话，随着时间的流逝，模型将逐渐降低精准分类分级效果，导致数据分类分级的效果越来越差。

一个好的数据治理安全解决方案必须做到算力、算法和数据的象限聚焦。在数据治理安全平台，通过AI引擎对数据的深度加工与精炼，依赖算力、算法将数据训练成行业专用的知识图谱模型，进而实现包括结构化、半/非结构化数据的自动发现，数据自动分类分级打标，数据资产化，数据质量在数据字段丰富度、数据分布和数据实时性等维度应用提升。

$\" src=$ 图3. 机器学习技术框架应用

4.AI引擎在数据治理安全平台应用实践

积累沉淀行业业务场景的数据治理和模型开发经验，搭建数据治理安全平台，采用具备自我迭代的AI引擎，能够自动对AI数据形式进行标准定义，将特征工程标准化、自动化、智能化，快速对接得到可被机器理解的结构化、半/非结构化数据，投喂给AI引擎，缩短扫描敏感数据发现时间，提高数据自动分类分级打标效率，从而自动改善数据质量。

AI 引擎从全域全量数据自动发现到暗数据扫描再到数据分类分级的阶段，借助文本聚类等技术，对数据进行基于上下文的识别，精准分类分级，快速整理高频词根并将数据分类标签与敏感度自动映射，建立数据分类分级标准和数据安全策略，通过深度学习自动识别数据质量，对数据质量进行效果评估和智能修复，并根据数据量和业务阶段的变化进行动态更新；建立起业务部门与系统之间、多环节业务流程的信息采集、关联和交互，提高数据要素流通效率和精确度。

首先是全域全量数据自动接入。接入多源异构数据源，挖掘企业组织内外部信息，纳入结构化数据，半/非结构化数据，提升与AI模型相关的数据积累。考虑到数据训练规模扩张，数据类型异构，数据噪声指数级增加，对此AI 引擎能针对性地进行数据自动发现。企业组织存在大量的暗数据无法通过人工完全发现，被动地通过流量监测方法去分析流量中的数据包，仅能使用少量暗数据，企业组织往往很难具备将大量暗数据的价值进行挖掘的能力，暗数据只能“埋没在角落里，无人问津”，AI 引擎有助于扫描到这些暗数据，即使是碎片化数据，也能进行聚类分析，最大限度利用。

其次是数据自动分类分级打标。在行业数据训练集中，对各数据资源的字段信息进行人工分词、标注，形成行业数据分类分级词库、语料库、规则库以及模型库；然后利用规则引擎实现初步的行业数据分类分级；再结合深度学习聚类算法，AI 引擎驱动数据分类分级全流程各环节，对数据分类和分级的规则进行适配、更新和维护，定期核验规则合理性，动态完善规则库，随规则变化进行迭代更新，满足规则灵活适配和管理要求，实施持续迭代训练和学习，使得AI 引擎能够自动发现高敏感度、高价值数据，对行业数据自动智能分类分级打标并能进行动态调整更新。

最后是数据质量的自动改善。对接入的多源异构数据从数据有效性、数据一致性、数据唯一性、数据时序性、数据完备性、数据完整性、数据合理性和数据准确性六个维度进行质量管理，在数据融合过程中，AI引擎能够对数据有效性、一致性和唯一性三个维度进行重新判断，如：非结构化数据在清洗处理后与结构化数据出现实体重复或内容不一致的情况。

场景举例：海石平台AI引擎如何解决工业高频高价值应用下的数据痛点。由于工业机理数据具备多样、时序与复杂性特征，线下海量数据待挖掘，从驱动经济效益的高频高价值业务场景需求出发，使用AI引擎自动发现数据，对数据整合、数据分类与清洗、模型训练，优化迭代，实现数据资产化目标。

$\" src=$ 图4. 数据治理安全平台AI引擎框架

5.AI引擎在行业数据治理安全领域的持续优化

由于工业数据来源众多，既有经营管理财务数据，还有工业生产制造数据及传感器设备的海量数据等，并且数据采集设备种类多、接口复杂。打通数据，让数据汇聚，可共享流转应用是工业数据的数据治理安全痛点。

工业数字化转型过程中将产生庞大量级的时序数据，因此对时序数据的测点范围选取、采集频率考量、高并发高吞吐能力、能否支持云边协同及实时应用。

在产品的设计加工和生产制造流程中，企业需对时序数据的采集、存储、查询、处理和分析，实时监控企业正常的生产经营过程。

工业产业链条长及工业机理复杂，需了解大量工业技术原理、行业知识、基础工艺等，强调对工业背景的理解。

海石平台AI引擎利用机器学习技术，工业机理数据自动发现，数据分类分级的环节更加自动化、智能化，可极大提升数据治理工作效率，同时基于自然语言理解和知识图谱挖掘关联数据的应用价值，解决数据质量管理的传统难题，使治理后的数据更加契合AI应用的要求，从效率和质量加速AI引擎的自我迭代进程。那么AI引擎不断优化也给企业组织带来更多智能化转型信心，加大相关数据治理安全项目的预算投入，进一步推进了相关数据治理安全体系建设，打造平台共享数据使用，确保数据安全合规，释放价值。

结论：当下数据生产要素已成为中国数字经济转型、工业智能化、实现高质量发展重要驱动力，数据共享使用无疑是正确发挥数据生产要素价值的最佳途径，而人工智能则是加快数据共享使用的火箭推进器引擎。如果以人工智能为核心的AI 引擎的能够不断自我迭代的话，不仅能够加快企业组织数据治理安全的效能，而且会对各行各业乃至中国数字经济和整体社会发展都有着至关重要的战略意义。

$\" src=$ 图5. 数据治理安全平台可视化展示

消息来源：CIO时代网