数据质量与数据治理的关系(数据治理|浅谈数据质量管理)

导读

本文介绍了数据质量管理的定义以及数据质量问题给经营决策带来的种种不利影响和后果,对企业数据质量问题进行了根因分析,引入数据质量的六大维度,针对性的给出了数果解决数据质量问题的闭环方法论,为企业数据治理和数据全周期管理指明了道路。

01

数据质量管理的定义

1数据质量管理(Data Quality Management)

是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

2数果智能对数据质量管理的理解

数据质量管理是一个从问题盘点、原因分析、管理方法论资源之家】每日免费更新最热门的副业项目资源到提供解决方案的完整流程。通过严格按照管理方法实施数据质量管理手段,实现对数据统一控制,数据治理的目标之一就是数据质量管理,它为企业构建大数据和人工智能决策平台奠定数据基础。

02

数据质量问题的影响

企业大数据和人工智能决策平台搭建之初,为了最快速度优先满足业务的使用需求,数据质量往往是被忽视的一环。

随着业务的深入和扩张,数据呈指数级增长,数据质量问题越来越突出,相信每位使用数据的同学,都经常遇到以下类似的问题:

1、表格无法按时产出,严重影响下游数据的获取

2、数据混乱缺失,看了报表才发现各种数据对不上

3、数据统计不准确,例如:结果显示up>pv

4、字段枚举值与注释对应不上,无法理解

5、维度缺失,没资源之家】每日免费更新最热门的副业项目资源法进一步做数据分析

……

以上种种糟糕的数据质量的问题,往往带来低效率的数据开发和不准确的数据分析,最终导致错误的业务决策

◉开发阶段:数据质量下降造成开发出来的系统与用户预期结果产生较大的差异。

◉使用阶段:有质量问题的业务数据在系统间流动让数据分析者和数据管理者产生误解,导致计算和决策出现偏差。

◉维护阶段:有质量问题的数据让维护成本不断上升,工作量增大。

03

数据质量问题根因分析:

技术、信息、流程、管理

1技术问题

由于具体数据处理的各技术环节的异常造成的数据质量问题,直接原因是技术实现上的某种缺陷。问题产生的环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面。

2信息问题

由于资源之家】每日免费更新最热门的副业项目资源对数据本身的描述、理解及其度量标准的偏差而造成的数据质量问题原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证、变化频度不恰当等

3流程问题

由于系统作业流程和人工操作流程设置不当造成的。主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程各环节。

4管理问题

由于人员素质及管理机制方面的原因造成的。如人员缺少长期培训计划、没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责、没有明确的数据质量目标等管理缺失、管理缺陷。

04

数据质量评估的六大维度

◉完整性(Completeness):用来描述信息的完整程度,评估数据是否存在缺失情况。

◉有效性(Valid资源之家】每日免费更新最热门的副业项目资源ity):用来描述模型或数据是否满足用户定义的条件。通常从命名、数据类型、长度、值域、取值范围、内容规范等方面进行约束。

◉及时性(Timeless):用来描述从业务发生到对应数据正确存储并可正常查看的时间间隔程度,也叫数据的延时时长,数据在及时性上应能尽可能贴合业务实际发生时点。

◉准确性(Accuracy):用来描述数据是否与其对应的客观实体的特征相一致(需要一个确定的和可访问的权威参考源)。

◉一致性(Consistency):用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性是否符合一致性约束关系。

◉唯一性(Uniqueness):用来描述数据是否存在重复记录,识别和度量重复资源之家】每日免费更新最热门的副业项目资源数据、冗余数据。

05

数果智能【数据质量管理闭环】

方法论

数据入湖前通过校验规则自动检验与交叉校验,主动发现质量问题并上报。

数据开发人员结合质量问题及数据标准进行质量规则开发,并部署规则至系统。

系统定时启动数据质量校验任务,按数据质量维度收集质量校验结果,包括检测记录总数、正确记录数、错误记录数等。

系统在关键任务节点跑完后建立质量校验节点进行监控并预警,及时通报干系人。

数据质量管理人员分析质量问题的发生及分布特点,制定总体治理方案,改善源系统数据质量。

06

数果智能

数据质量管理流程

要解决数据质量问题,需要明确业务需求,从需求开始控制数据质量,建立数据质量需求管理机制,从业务出发,做质量问题资源之家】每日免费更新最热门的副业项目资源定义,关联技术规则,建立稽核任务自动,及时发现问题,通过邮件、钉钉等方式进行通知,保证问题及时通知到责任人,跟踪问题改进的进度,闭环做到问题归档,保证数据质量问题全过程的管理。

07

总结

数据质量管理是数据治理一个重要的组成部分,也是数据治理的目标之一。

常态化的数据质量要求企业不断优化组织形式、管理流程、转变观念,坚定迈向数字化转型的道路。在数据质量管理过程中,要抓住影响数据质量的6大因素,从数据源头抓起,贯彻数据全周期管理的理念(数据规划—数据设计—数据创建与运营应用—数据归档)。

对于数据治理,数果智能开发了一套完整的机制,助力企业实现常态化的数据质量管理!