数据质量管理(数据质量管理工具) 资料图片。供图:中翰软件 时下,随着企业数字化转型工作的逐步深入,越来越多的企业意识到数据质量的重要性,虽然很多企业已经构建了各种数据治理平台、大数据分析平台以及数据中台等,但是大数据场景下的数据质量问题依然没有得到很好的解决。 16年来,中翰软件一直专注于解决工业企业的数据质量问题,于2020年基于中翰dmcv7.0的基础上推出的一款最新理念的基于大数据场景的企业数据治理软件,DMC是Data Management Control(数据管理与控制)的英文缩写,目前为v8.0版本。 基于基础数据治理的角度,本平台在打破传统企业数据治理思想的基础上,以数据质量为核心、数据安全为保障、数据服务为目标,解决因静态数据的动态性、局限性造成的传统数据治理平台(如主数据管理平台、政府或金融行业数据资产管理平台)的各种管理弊端,加大了解决数据质量问题的深度、广度和持久度(4重质量防护)。为了提高数据治理能力的延续性,减少数据治理能力转移的难度,我们进一步(在DMC7.0的基础上)改进了体系构建和数据保养平台,进一步拓宽了数据管理体系咨询到数据管理运维的知识通道,合理地规避了运维管理过程中的种种难题。同时利用大数据的技术增强了数据质量问题的敏感度,实现了数据质量的防微杜渐。 基于数据资产管理的角度,平台增加了数据资产目录、数据资产实体关系、数据资产地图、数据治理知识地图、数据资产管理行为控制、数据血缘分析等。并且本平台可以同时基于源端(数据产生端)和末端(数据汇集端)进行全方位的数据治理,实现解决数据质量的彻底性。 基于大数据场景的角度,8.0版本具备了更好的融入数据中台的能力,实现了大数据场景下数据质量的完美解决,可以轻松对接国内主流大数据平台、数据中台等,此方案在同行业内优势较为明显,从而使中翰迈上了大数据场景下数据治理的新征程。 大数据场景下数据治理整体架构,具体如下图。 图 大数据场景的数据治理整体架构。供图:中翰软件 上图可以看出,大数据场景下数据治理整体架构主要包括源端数据治理、末端数据治理、数据安全管理、元数据管理、云计算平台、数据湖(含数据仓库等)、数据资产目录及实体关系、大数据应用分析和知识管理,具体如下: 1) 源端数据治理是指基于业务系统的静态数据治理,包括主数据管理和业务场景数据治理; 2) 末端数据治理是指基于ODS层(全量数据中心)的数据质量检测、改造处理,二者(源端、末端数据治理)合起来为数据质量管理; 3) 数据安全管理包括网络数据安全、终端数据安全和数据库安全,如数据库安全包括指针对数据的防泄漏、加密和脱敏管理等; 4) 元数据管理是指针对元数据标准进行统一管控(采集、存储、分发),并且实现元数据的血缘分析、影响分析以及全链分析等; 5) 云计算平台指利用私有云或公有云构建统一虚拟化资源云底座; 6) 数据湖(含数据仓库)是指汇集、存储结构化、半结构化以及非结构化数据; 7) 数据资产目录及实体关系是数据资产服务的内容,数据应用分析是指基于业务主题的数据加工、展示; 8) 知识管理是指数据治理相关的过程及成果知识,是数据治理能力转化的有效载体; 9) 大数据应用分析包括联动分析、审计数据应用分析、知识图谱等。 中翰DMC v8.0为基于数据环境、数据质量、数据安全、数据服务和数据知识五个方面的大数据场景的数据管控平台,全面满足DAMA体系以及DCMM数据治理标准规范,内含11大组件,具体如下。 中翰EDP组件 体系构建平台,数据管控平台的核心组成部分,实现构建数据标准、模型等的过程化管理,实现数据治理项目调研、咨询过程的线上管控,记录调研、咨询过程、结果,提供数据治理知识的常态化转移,解决数据治理后运维过程无法有效完善和拓展以往延续体系咨询思路的难题。 中翰MDC组件 静态数据中心管理平台,数据管控平台的核心组成部分,用于静态数据管理体系的落地和静态数据日常维护的管控操作,实现数据全生命周期的一体化管理。 中翰ODC组件 数据清洗平台,数据管控平台的核心组成部分,用于历史数据的清洗,能够彻底解决历史数据的不一致、不完整、不合规、数据冗余等问题,最终通过ODC可以生成新老数据以及重复老数据的映射关系表,为BI提供分析参照。 中翰Exchange组件 数据交换平台,数据管控平台的核心组成部分,用于数据治理平台和其他业务系统的数据交换,包括数据的采集和分发。 中翰BPM组件 工作流平台,数据管控平台的核心组成部分,用于实现企业静态数据的申请、审核、变更等过程的任务流转,此平台为国际最先进的BPMn2.0规范。 中翰TWEET组件 海量数据安全及推送机制平台,数据管控平台的核心组成部分,用于数据治理平台在海量数据下各组件间的数据快速推送交互及安全保障。 中翰DAM组件 数据保养平台,数据管控平台的核心组成部分,也称数据评估监测平台,数据治理项目结束后可以实时地进行深层次数据质量的异动探知,解决数据治理后数据质量无法持续良好的难题。当然数据质量项目前也可以进行存量数据质量的分析。 数据新增后的日常质量评估、监测,通过大数据行为分析技术,实现数据质量问题的及时发现并处理问题数据,确保数据质量的可持续性,规避数据治理重蹈覆辙的风险。 图 质量门户。供图:中翰软件 中翰Report组件 报表平台组件,数据管控平台的一般组成部分,解决平台固有报表无法满足特殊展示要求的问题,实现前台可视化报表自定义设置。 中翰APP组件 移动端组件,数据管控平台的一般组成部分,实现移动端数据申请、查询以及二维码扫描等管理,便捷日常数据管理操作。 中翰DAC组件 数据资产目录,数据管控平台的核心组成部分,实现数据资产的目录以及数据资产实体关系生成、展示等,真正解决数据资产化服务的难题。 中翰MMP组件 元数据管理平台,数据管控平台的核心组成部分,解决元数据标准规范统一采集、存储、分发的管理,为数据血缘分析等提供工具基础。 核心优势 全面解决数据质量 打破传统模式,独创工业企业数据质量全面解决方案,即最大化的在源端解决掉所有数据质量问题,而非集中在数仓层去亡羊补牢! 行业内大部分数据治理方案是源端部署MDM平台,剩余的大部分静态数据在数据仓库解决数据质量问题。因为,国内传统以及国外的MDM平台管理的只是数据的共享信息,然后其他业务系统再各自单独维护一部分静态数据(非共享的数据)。 结合多家大型企业集团的实施经验,中翰推出国内第一个多业务视图管理理念,从而实现数据的公有属性和私有属性的共同管控,打造真正的企业级静态数据中心,在数据生成的源头一次性全面(所有静态数据)解决质量问题。 深层次解决数据质量 为了真正的解决数据质量问题,利用技术+行为管控的方式实现源端+末端的4重质量防护,技术包括正则表达式、算法、机器学习等,行为管控指在数据采集阶段让专业的人进行维护等。 长久解决数据质量 数据治理项目后数据质量的日常检测、分析、处理机制可以更好的实现数据质量的防微杜渐,确保数据质量异动的实时探知,为及时准确的解决数据质量问题提供保障。 高效转移数据治理能力 数据治理项目结束后的日常工作不只是操作平台,70%左右的时间是在研究如何扩展、完善现有的体系,此时数据治理的能力就会非常重要,中翰独创在线知识转移模式(数据体系构建工具)实现了数据治理能力的有效转移。 技术+行为双重质量约束 国内外传统的平台,数据新增是一个人的全部维护,也就是传统的‘点式新增’,这需要新增前收集全部所需信息然后再一次性录入,这样会不可避免的产生二次错误。 鉴于此原因,中翰引入‘线式数据新增’理念,也就是把申请过程拉长,此过程根据字段级的权限控制每个数据新增人员的录入内容,明确相关责任,强化管控力度,最大化的规避二次错误的发生。 针对工业企业的数据清洗工具 国内外传统的平台,历史数据清洗方面不是空白就是不切合中国企业实际,尤其是物资数据清洗方面是整个项目实施过程的难度之一,没有很好的方法和工具很难实现整个项目的价值最大化。 中翰推出国内唯一专业数据清洗平台(中翰ODC),在满足中国企业实际的前提下,很好的解决了中国企业物资数据清洗的一大难题。 满足特定场景的多编码管理 国内外传统的平台,一类数据只允许一个最新的编码结构体系存在,这样会导致一些传统的大型企业集团下属的单位的历史编码体系无法存在和延续,武断的废除可能会造成某些系统和人员的使用障碍。 中翰在多业务视图管理的基础上设立了多编码器模式,即每个视图都可以单独编码,可以模拟传统的无法废除的编码体系结构,可以继续在原有结构和位数的基础上增加流水号。(山东中翰软件有限公司)