主数据大家肯定都不陌生,但在做主数据项目之前,大家对主数据的理解,包括如何建设与实施的一些流程,都存在或多或少的疑问或误解。下面我们通过五个章节,来和大家一起重新认识一下主数据。
前三章是一些干货内容,是在我们过往的实施和交付的项目中提炼的一些经验和方法。第四章节是介绍我们亿信在我们众多项目交付中不断打磨锤炼而成的主数据产品。后的章节会带着大家用实际的场景与课题,来进行讨论和研究。
—01—企业数据治理从哪方面着手开展?
企业数据治理从哪个方向开始着手?一般来说会涉及到两个选择:主数据和元数据。这两个词虽然只有一字之差,甚至笔画差别都不多,但这两个着手路径有着本质的区别。
如果是从主数据着手来开展企业的数据治理,首先是比较适合当前整体情况的,因为目前国企的数字化转型已经是一个课题,此外一些集团企业或一些大型的实体,都涉及到方方面面的业务。同时主数据也是在整个数据治理过程当中是具备业务性和被业务感知和认可的模块,在业务诉求已成显性需求的情况下,它是驱动数据治理开展的主攻方向。
而元数据是描述数据自身的数据,它相对比较完善,它更适用于信息化建设相对比较完善,数据基础相对比较夯实的情况,主要是用数据本身的需求去驱动项目的开展。
但其实无论是从元数据来着手还是从主数据来着手开展,对于我们老生常谈的无论是数据烟囱还是数据孤岛问题,它们都是在从不同的方向去解决问题。对于前言列出的选择题,两个方面、两个角度,分别有不同的答案,也供大家参考和使用。
—02—主数据相关知识
1.主数据需求来源
主数据立项的背景,我整理分为三部分内容。
部分是无标准化的基础数据自身的问题,这是主数据本身的需求范围和建设目标。第二部分是涉及到主数据相关业务的一些业务需求,这部分较宽泛,它是要解决一些业务的问题,而这些问题或多或少都和主数据相关,但单独依赖主数据并不能彻底解决这些业务诉求。第三部分,是我们常见的数据中台的驱动,大中型企业数字化转型一般会有这样诉求。在企业自身,尤其是以业务驱动,或是以业务领导为指导的背景下,主数据是易被业务部门和信息化部分共同认可的立项方式。
这里我具体举一些项,也就是我们主数据自身的诉求的一些需求例子。比如说主数据里面常见的主题之一——物料。有一些是同一物料编码,但是是不同的两个物料;有一些物料编码会有少量的差异,但是它却定义成两个物料……类似于这样的各类问题,都是一些我们从项目当中提取出来的一些客观问题。
2.具象主数据
什么是主数据?通俗理解,主数据是对企业核心业务而言非常重要的信息的单一来源。换言之,主数据支撑关键业务流程和事务。这里反复强调了关键、核心,也就回归到我们主数据是企业的黄金数据。
我们来举四个例子:资产和地点,是一类主数据;CRM里面的客户也是一类主数据;供应商也是一类主数据;我们的产品主数据也是。但是他们共同会有四个比较标准的特性:性、共享性、稳定性、有效性。
我们再来举个反面的例子,就比如说我们订单,这些属不属于于主数据呢?
首先订单号肯定是的,它具备性;相对而言,订单他的性质是生命周期是比较短的,他共享也只是在他的订单从发生到结束的流程里面具备一定的共享性,但是从是否被多个系统使用而言不太具备共享性;订单相对是比较稳定,具备稳定性。从时效的有效性而言,订单存的有效性仅仅存在于他的生命周期中,而不像我们的产品,它是在多个系统里面都会稳定使用的。所以一般来说,像订单一类的信息呢,我们就不把它列为主数据的范畴。
3.企业数据范围
这里我们大体把企业数据分为两大类:企业内部数据和企业外部数据。
(1)企业内部数据
就从企业内部来说,首先包括我们企业的核心关键数据,即主数据。再往上扩展,就是企业日常的一些经营数据,包括一些采购数据、销售资源、生产制造数据、收付款数据等。在基于经营数据和主数据基础上呢,会扩展出我们的企业内部所需要的一些分析数据,这些数据更多是由生产经营做加工汇总分析出来的一些数据,包括业绩统计、关键的kpi、财务报表,还有一些决策支持数据等。同时企业内还会涉及到传感器、设备、仪表的相关数据,包括日志数据,甚至是一些监控数据,这些都属于企业内部数据。
(2)企业外部数据
企业外部数据会主要涉及到两大板块。
①相关数据:相关数据实际上和企业还是有一定联系的,比如说友商的数据、电商的一些数据、银行包括企业借款、电力水务相关数据等。
②社会化数据:再往上是一些社会化的数据,包括一些我们的社交微信的数据,还有政府公开的政策法规的数据。这些数据呢看似离着企业比较远,但实际上他的包括企业的政策法规、包括我们现在一些社交媒体的一些数据,类似于咱们现在的直播,或者带货等,其实大多都或多或少都属于社交的一些数据,但是和我们企业内部的是息息相关的。
这些数据从重要性而言,实际上是从内到外的过程。我们要把主数据去做好,逐步的往外扩展这些数据,才会让他有价值,也能为企业的自身经营提供便利和相关作用。
4.概念解析
我们来详解几个比较容易混淆的概念:参考数据、主数据和数据标准。
我为什么会把这三类概念放在一起说呢。首先,如果大家对数据治理理论比较了解的话,参考数据和主数据实际上是一个章节里的。主数据和数据标准,这两个会在各种项目里给大家带来一定的困惑:我做了主数据,有没有必要做数据标准;我做了数据标准有没有必要去做主数据;他们俩之间到底有多少是交集的;有多少是不重叠的;各自在哪个领域更擅长……这三者在整个数据治理的环节中,能给大家带来不同的解决思路,或是分别解决不同的问题,所以我们这里将这三个概念做一个对比解释。
简单来说,参考数据是我们日常说的一些码表或维度,比如说邮编、地区、性别、学历等。它相对而言比较固定的,而且这种编码的规范和命名的方式,无论是国标、行标都是有一定标准的,它更多地是已经具备了宏观和微观的一些参考而形成的。而主数据,它更多是对数据源头的管理。数据标准的,则是对数据过程的管理。这三者会有一些本质的区别。下面我们以类比的方式给大家讲解一下主数据和数据标准的区别,因为参考数据相对来说比较好区分和理解。
这里列举的流程是我们DW建设的思路。主数据实际上应用的路径并没有进入到数仓,它是直接从业务系统的源头去对数据进行处理和管控。而数据标准是在生产数据产生并进入我们的数仓或者数湖之后,在数据流转加工的过程中去做相应的监督和落标的管理。这里举了一个例子来类比一下,不一定恰当但比较好理解。
主数据就类似于交警,而数据标准,就类似于协警。交警有几个特征:首先,交警是在一些关键和主要的路口出现,而不是所有的路口或者是比较窄的巷子里面出现;第二个特点是他是有执法权和处罚权。而协警是出现在各个路口,不仅仅是关键路口,它更多地反而是出现在一些二级或者三级入口去协助管理,去叮嘱行人的一些闯红灯、电动车的一些违章情况,同时他是没有执法权的,他不能开罚单,他只能配合交警去处理相关的交通事故。
以上相对比较形象地说明了主数据和数据标准在整个数据流程环节当中,所处的位置和各自责任。同时再穿插一个数据质量。这三块往往是会连通在一起来说,数据质量相对而言,我简单理解类比,它是查酒驾、毒驾、违章、超速等的。它应用在我们数据流转的各个过程中,但它的职责是检查,类似于查酒驾是可以吹酒精探测器、查毒驾可以血检尿检、查超速可以看探头的数据、查超员直接上车点人头,这些就可以类比为一个个数据质量规则。
—03—主数据识别
1.主数据实施流程
下图是整个主数据实施的比较标准的流程,是一个稳定的循环。
可以把整个实施流程步骤分为两块。块是识别主数据,上图从主数据识别到主数据模型的这四个步骤都是识别主数据的范畴。第二块是根据前面识别主数据的各种各样的属性、各种各样的信息、各种各样的流程,来进行对应的实施建设。所以说识别主数据这个大的过程是在主数据项目中比较核心、比较关键的内容,如果我们识别做好了,后续的实施建设,更多的是按照既定的识别内容和计划进行实施。
识别过程的步是对主数据主题的分类。主要分为两大类:大类是管理类主数据,这类较为通用;另一大类是业务类主数据。通用的这类主数据相对而言,它可以适用于很多机构、或者组织,不仅仅是企业。而我们业务类的主数据,更多的都是跟企业相关的。
2.如何快速识别主数据
下图这六个问题能得到答案的话,那么我们识别主数据的步骤也就基本完成。
以上这些问题大多都比较好理解,针对第四个问题,我们来具体解释一下什么是对于主数据平台的依赖关系。从主数据管理的本质上来说,其实就是两个方面,一方面是将主数据的入口统一起来,第二方面是将它的出口化。这里的化是指,只能从主数据平台输出,其他的系统一律不具备主数据分发的功能。
在由业务系统为主数据的统一入口的时候,就是强依赖,也就是说主数据的数据来源是依赖于某业务系统。比如物料信息与ERP系统是强绑定的,后续不仅仅是物料的维护,还是物料的订单、采购,都是在ERP里面内置的。如果物料的信息是由主数据来推送给ERP的话,那ERP就有很多环节需要做对应的接口,很多流程需要去改造,那么整个改造以及主数据的实施成本会比较高。像这一类我们推荐使用的是强依赖的关系。
也就是说主数据他不去对于物料信息去做增删改的操作,还是依赖于原始的ERP信息,只是把ERP信息同步过来,他做的更多的是让出口化,做好分发的相关的工作。当然这种强依赖不是说只能依赖一个绕口。就像一些门店信息,它有直营门店也有加盟门店,有两套信息系统,这两套系统共同作为主数据的他源头系统。但这里有个前提条件,就是这两个业务系统的业务范围是没有交集的,不能说直营系统里面还有加盟店的信息,加盟店里面或者有直营店的信息。这两个两个系统必须是独立分开的,可以作为主数据系统的输入,这就是强依赖。
第二种是弱依赖。比如说我们人员的增删改,在主数据系统上线之后都可以在主数系统内来维护。它不依赖于HR系统或者OA系统,他只是在初始化的时候可以让HR系统初始化过来,在这个基础上去做人员的维护,但是维护的操作都在主数据系统内。
所以我们可以根据不同的业务特性,还有我们信息化建设的不同的等级,来选择不同的依赖关系来建设对应的业务主题。
3.主数据业务主题识别方法
以下四个步骤是主数据业务主题的识别方法。
下图是一个示例,展示了我们如何识别主数据的标准化流程。过程比较简单,但可以清晰明了地知道主数据建设的范围和逻辑。终识别出来之后,再逐渐对它进行细化,就可以作为我们无论是立项还是说需求输入的重要的文件。
下面对门店主数据进行一个拆解示例。门店主数据中掌柜系统是它的主要来源。门店系统中除了门店自身信息以外,还包括店长和门店类型等,这些信息可以作为掌柜系统的补充。GIS系统是提供门店相关的经纬坐标。这三个系统是强依赖的关系,有这三个系统作为主数据的的输入,再由主数据系统在我们门店主数据基础之上做相应分发接口来分发给对应的不同的业务系统。业务系统我们统称为第三方系统。这个过程主要是提供标准的接口,各个业务系统自己来通过接口获取。像一些数据的写入到第三方的数据库里,或者说给临时库去写,这种方法在以后的大趋势下会越来越少,更多的是用这种接口的方式。
—04—亿信华辰主数据产品
刚才我们提到的主数据识别之后,紧接着就是选产品、做分发、做规则、做主数据模型的建设。而这些亿信华辰的主数据平台都是具备的。
首先,它是全生命周期的管控。从主数据的模型建设、编码、字段的定义、包括模型的流程还有工作流方面都具备对应的功能。在数据的维护方面,首先,如果主数据是弱依赖的关系,那所有主数据信息都是必须在主数据平台上面维护的,亿信的自身在平台数据维护上面,它有自定义的表单功能,表单功能非常灵活,可以制示出各种不同的填报表,同时也可以和我们的工作流结合,来让他具有一定的流程性和审批性,来应对不同主数据的维护和审批流程需求。同时我们的主平台也具备数据质量检查功能,这一块是亿信特有的功能。
从多结构的模型定义方面来讲,我们平台不仅具备多视图和分类这些基本功能,还能适配BOM模型,这是我们主数据产品的一大亮点和特色。因为在企业中,特别是制造业,主数据的需求会比较旺盛,而BOM模型在物料和产品加工的过程当中是必不可少的环节。所以说,在此背景下,我们实际上是把BOM功能去和我们主数据进行了合并,来更好地为制造业客户提供服务。
后,刚才讲到选工具的时候提到的的ETL、数据加载这些功能,在我们亿信的主数据平台里也是具备的。无论是从Excel导入还是库表的导入,甚至来说第三方接口的导入,或是ERP的对接,在我们主数据系统里都有对应的接口或者对应的功能。
整个主数据的处理加工都是通过图形化的界面,由组件进行操作和使用来完成。我们无论是数据的初始化、还是数据的分发、或是数据的推送,以及定制化任务、计划调度等都是可以实现的。
—05—场景演练
下图是场景演练的背景和诉求。
其实这个场景是非常普遍的业务需求,是在我们日常生产、工作、生活当中都会遇到的情况,对此并没有固定答案。我们前面有介绍过主数据的需求来源,这个属于第二点,即和主数据相关的业务场景,但是仅仅靠主数据解决不了这个业务痛点和业务问题的。
就场景的问题来说,我个人观点首先是我们要梳理我们和上游以及下游的合同管理,将合同作为主数据。同时这个合同主数据模型必须要包含有这个关键信息:上游合同和下游合同的对应关系。这样让上游合同和下游合同关联起来,并由专门的系统来维护。这只是完成了关系的维护和定义,实际上对于这种数据的加工处理,还是要结合数仓的理念对此进行数仓的建设、模型的建设,结合DW、BI的方式,来彻底解决问题。实际上到后的成果,无非是几个统计报表、或者是KPI的页面。这种方式实际上是以主数据对合同进行管理,同时通过建立数仓,用DW、BI的方式来解决我们的业务痛点。当然这只是一个观点,并不是解决问题的途径。
后是我们亿信团队通过做了这么多主数据的项目提炼出来的一些建议。