众所周知,要体现数据价值,前提就是数据质量的保障,质量没有得到 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持,或做业务办理,将会得到灾难性的结果,让领导层和数据使用方对大数据失去信心。本文通过分析数据质量问题出现的原因,给出解决数据质量管理问题的思路,值得参考借鉴。
数据质量问题常见原因
大数据项目建设是一个专业且复杂的工程,涵盖了业务梳理、标准制定、元数据管理、数据模型管理、数据汇聚、清洗加工、中心存储、资源目录编制、共享交换、数据维护、数据失效等等过程。其中任何一个环节中出错,都将导致数据的错误,甚至,源头数据本身就是错误的。所以,数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。我们总结导致数据质量问题的常见原因如下:
1)缺乏领导力:
由于组织领导层不重视数据管理,导致缺乏数据管理层面的资源投入;确认企业自顶向下的数据质量管理体系建设,构建企业级数据质量管理闭环。防治措施:定制数据治理组织架构,构建数据质量闭环管理方案,制定数据考核评价体系,加强宣贯培训。
2)数据输入引起的问题:数据采集端缺乏标准,无数据质量管控导致输入数据不一致和混乱;缺乏过程支持导致错误数据输入,业务流程规则变更、业务流程执行混乱等导致的数据错误。防治措施:加强数据源头管控,建立数据输入控制,防止活不准确的数据进入系统。
3)数据处理引起的问题:引用的数据源出现错误或变更、系统文档不完整或已过时;过时的业务规则;变更的数据结构等。防治措施:加强元数据管理,制定变更控制,将数据质量管理前置。
4)系统设计引起的问题:未执行参照完整性、性约束、编码不准确和分歧,数据模型不准确,数据映射或格式不正确,主数据管理薄弱导致数据质量问题等。防治措施:加强系统设计规范及管理。
5)解决问题引起的问题:主要指临时手动修改引发的数据隐患,没有通过应用接口或业务处理规则进行变更,可能导致更多的错误产生更高的风险。防治措施:实施数据治理和管理制度。
如何解决数据质量问题
综上所述,数据质量的来源非常广泛且复杂,系统开发、运行、操作的任意环节的任何一个问题,都可能造成数据质量的产生。
高质量的数据是进行分析决策、业务发展规划的重要基础,只有通过建立完整的数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告,通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。根据亿信华辰多年数据治理和数据质量实践经验,我们总结了企业数据质量管理的七步法。
1、定义高质量数据
在启动数据质量方案之前,有益的做法是了解业务需求、定义术语、识别组织痛点,对数据质量改进的目标和优先级事项达成一致。可以从以下几个方面考虑:包括对高质量数据的理解、低质量数据对业务运营和战略的影响,对低质量数据的容忍度,高质量的数据如何赋能业务战略等,全面了解组织中数据质量的当前状态,与利益相关方面谈识别痛点、风险和业务驱动因素,了解业务流程系统情况、技术结构和数据依赖关系。
2、定义数据质量战略
提高数据质量要有一定的战略,应考虑到需要完成的工作以及执行这些工作的方式。数据质量优先级必须与业务战略一致,定义数据质量框架有助于指导战略及开展数据质量管理活动。
3、识别关键业务和质量规则
数据质量管理工作应首先关注组织中重要的数据,可以根据监管要求、财务价值和对客户的直接影响等因素对数据重要性进行优先级排序。在确定关键数据后,识别梳理数据质量特征要求的业务规则。
4、执行初始数据质量评估
确定关键的业务需求和数据后,通过执行初始数据质量评估,了解数据,定义可操作的改进计划,通过评估结果确认问题及优先级,并作为数据质量规划的基础。
5、识别改进方向并确定优先级
在经过初步数据质量评估后,识别潜在的改进措施,并确定优先顺序,可以通过对大数据集进行全面的数据分析来了解问题的广度,或与利益相关方进行沟通,分析问题的业务影响,终讨论确定优先顺序。
6、定义数据质量改进目标
初步评估是为特定的数据质量提升目标奠定了基础,根据数据质量改进带来的业务价值的一致性量化,设定具体的、可实现的目标。确定数据质量改进目标时可参考以下因素:受影响数据的关键性,受影响的数据量,受问题影响的业务流程数量和类型,受影响的消费者、客户、供应商或者员工数量,与问题相关的风险,纠正根本原因的成本,潜在的工作成本等。
7、开发和部署数据质量操作
为了保证数据质量,围绕数据质量方案制定实施计划,管理数据质量规则和标准、监控数据与规则的执行一致性,识别和管理数据质量问题,并报告质量水平。
数据质量管理平台推荐
以上步骤的实施需要依托数据质量治理战略、数据质量管控策略,还需要数据质量管理平台的支持,构建数据质量治理的自我完善能力。我们可以简单地通过引入一些工具和规则就可以解决 80% 的问题,也可以引入一个复杂的系统工程来解决 的质量问题,取决于我们希望达到什么样的质量标准。那么亿信华辰数据质量管理平台是如何助力实现数据质量的严密管控的呢?
1)多角度的规则管理
平台提供数据质量规则的定义和管理,数据质量规则定义数据质量审核的业务逻辑,是数据质量审核和监控管理的基础。规则定义提供了规则复制和规则模板的功能对规则进行多模型使用,提升了用户在规则定义过程中的便利性。
2)多种方式的新建规则
平台内置16种规则模板,用户只需通过简单界面化的方式新建规则。平台支持单条和批量建规则,可以根据已经存在的模板新建规则,可以根据标准来新建规则,满足不同场景创建规则的需求。
3)强大的智能修复
平台支持对检查出来有问题的数据按照一定的规则进行智能修复,可以支持对空值、值域、规范(身份证、日期、全半角)这些规则进行修复,方便用户对数据的整改。
4)全面的监控管理
平台支持数据质量检查方案的定义和管理,包括检查范围、检查时间、检查规则、评分规则、评估报表等。同时,方案支持人工调度和自动调度。提供了完整性评价、规范性评价、逻辑性评价、及时性评价、重复性评价、外键关联性、波动分析、平衡分析等多种评估方法,各评估方法均采用可视化界面,用户无需编程,即可轻松完成所有规则的建立。
5)详尽的结果管理
通过质量监控,会产生和保存质量结果,包括:对象名称、发生时间、违反规则、级别、状态等。系统会自动生成每个质检方案的明细结果表,并允许用户根据分析需要对明细结果表字段进行自定义,从而为用户进行丰富多样的数据质量分析提供数据。
6)细致自主的数据整改
平台参照工作流管理联盟(WfMC)标准设计,用户可自行定义整改流程,可实现问题分发给数据责任人,并可实时监督流程处理的状态。同时可根据流程的优先级、终期限、转派次数等提供多角度查询功能。
亿信华辰数据质量管理平台以全面质量管理PDCA循环管理方法为指导,充分结合国内数据质量管理工作的特点,运用元数据管理、数据挖掘、数据分析、工作流、评分卡、可视化等技术终帮助企业和政府建立数据质量管理体系,全面提升数据的完整性、规范性、及时性、一致性、逻辑性等,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。