编 辑:彭文华
彭友们好,我是老彭啊。今天有个彭友问我:数据中台里也有数据治理的很多功能,是不是就可以直接替代数据治理这件事情了?唉...市场上有些数据治理的概念很小,小到什么程度呢?他们理解的数据治理是从数据入仓之后才开始的。你应该明白我想说什么了:数据治理不止是数据部门的活儿!!!数据治理不止是数据部门的活儿!!!数据治理不止是数据部门的活儿!!!端到端
我早听到“端到端”是在供应链里看到的专业术语,现在也被借鉴到信息化、数字化的领域。说的是供应链管理应该从整个供应链的一端到另外一端全流程进行管控。
以蔬菜供应链为例,一端是农户,就是蔬菜生产端,一端是消费者,就是蔬菜消费端。好,我们用朴素的思维去理解,对蔬菜的质量管控,应该从哪里开始?从进入批发市场吗?很明显,必须得从农户开始,进行全流程管控好吗?进入市场之后再开始管控,等发现问题的时候,很可能已经有很多蔬菜流转到消费者餐桌上了。其实很多数据治理项目做不到深入到“数据生产端”,并不是数据治理服务商们不懂,而是有很多因素的。一旦深入到数据生产端,那就意味着数据治理的成本会成倍增长,而且短时间内看不到成效。举个简单的例子,我们不管在哪个环节,发现一条数据有质量问题,我们怎么解决?1.数据不标准导致的,可以用标准化后直接处理的,比如性别代码不统一的情况,弄个mapping表统一标准就行;2.相对比较规律的,比如姓名里有空格、除·之外的特殊字符的,梳理几个规则处理就行;3.关键信息缺失、错误的,比如姓名为空、身份证号完全不符合规则的。其中,情况1、2可以与业务方确认规则之后,由数据工程师解决。但是数据工程师对情况3就无能为力了。大数据技术再厉害,也不能猜出对方叫啥、身份证号是多少不是?那是算命先生的业务范围。在这个时候,就需要数据治理平台与业务系统打通,对各种渠道判定有问题的数据,进行归类后,退回业务系统。业务系统中收到信息后,让业务系统的人员另起一个流程,通过与客户沟通、查阅其他资料等方式进行补齐。这里必须要做的一件事情就是确认每一条数据的归属。如果你读过《华为数据之道》应该对他们的数据Owner印象深刻。再深入一些,他们认为:业务即⾏为,⾏为即记录,记录即数据。谁生产这条数据,谁就对这条数据负全责。所以华为的每一条数据都有对应的业务部门承担管理责任。这就是在数据生产端进行数据治理的典型案例。本来么,上游下来的垃圾,凭什么要下游捞啊?《华为数据之道》里借用供应链的说法,把端到端的另一端叫做“数据消费”。我们这边还是叫数据应用端吧,跟咱之前写PPT给客户的“数据应用层”叫法保持一直。要不总出新名词,客户也会很烦,我们解释起来也费尽。前几年现在典型应用就是大屏,现在开始往业务那边深入了。这样符合管理学的一般规律:先服务高层,再逐层向下渗透。所以老彭判断一个公司数字化程度,简单的办法就是看他们的数字化是为谁服务的。如果只是为决策层服务的,那么不管使用的技术多么先进,投资多么巨大,那么数字化渗透率还是不够,将将渗透了管理层。如果能够对各个部门的实际业务进行深度结合,帮助各个部门优化其流程,那渗透率已经比较高了,可以称之为数据驱动型的企业。如果数字化已经嵌入到执行层的日常流程,甚至达到了脱离数字化手段都无法开展工作的地步,这就像武侠小说里的“坐立行走皆是功夫”,达到了佛法里的“行住坐卧皆是禅”的地步,可以称之为数字化完全体。数据治理就是需要以数据应用为目标,反向要求所有数据必须要“精准”、“及时”。这就是数据治理的核心目标。所以,了解数据如何应用,是数据治理先要解决的问题。那么华为是怎么解决这个问题的呢?很简单,他们的数据应用也不是数据部门搜肠刮肚想出来的,而是完全由业务部门根据自己的业务自行想的。所以业务部门数据Owner的权限很大很大,担子也很重很重。数据部门的定位就很清晰了,不用到处协调业务部门修复数据,不用费尽心思帮业务部门想应用,只要做好中间的数据处理工作就好了。这里就把数据质量如何从端到端进行管控全部拆解明白了,感兴趣的彭友可以移步过去瞅瞅。这里就不赘述了。其他公司的情况是一样的。有空的彭友可以估算一下,如果要像老彭举的例子里那样,做到端到端的数据治理,要花多少时间、多少人力物力。反正老彭当年天天跟IT的人混在一起,天天提需求改系统,天天跟培训部门、客服部门泡在一起,就没停过。你自己算算要多少钱吧。