近数据中台很火,接触的很多企业都在提这个东西。然而,很多连数据基础都没有、仍然处在数据孤岛阶段的企业,上来就说我今年要做数据中台项目,这实际上是因为大家都在追热点,而没有真正搞明白这个名词的含义。
那么,数据中台到底是什么?它和数据仓库、大数据平台又有什么区别呢?
首先,国内的数据中台兴起,大多是因为阿里巴巴的马老师提出的”大中台、小前台”的口号。所以,我们先来看看阿里对数据中台的定义。
数据中台是什么
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,今天谈到的数据中台包括数据模型,算法服务,数据产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用的,比如企业自建的2000个基础模型,300个融合模型,5万个标签。它是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。
数据中台的价值
1、数据复用
浙江移动已经将2000个基础模型作为所有数据服务开发的基础,这些基础模型做到了“书同文,车同轨”,无论应用的 数据模型有多复杂,总是能溯源到2000张基础表,这奠定了数据核对和认知的基础,大程度的避免了“重复数据抽取和维护带来的成本浪费。曾经企业的数据抽取就有多份,报表一份,数据仓库一份,地市集市一份,无论是抽取压力、维护难度及数据一致性要求都很高。同时,统一的基础模型将相关业务领域的数据做了很好的汇聚,解决了数据互通的诉求,这点的意义巨大,谁都知道数据1+1>2的意思。
2、沉淀业务模型
在企业内,无论是专题、报表或取数,当前基本是烟囱式数据生产模式或者是项目制建设方式,无法形成标准化统一业务模型,无法沉淀和共享也就无法迭代生长,从而造成模型不能真正成为可重用的组件,无法支撑数据分析的快速响应和创新。只有在迭代生长中的业务模型才能从初的单一字段,逐渐完善形成为企业为宝贵的统一模型资产和统一数据资产。
以报表为例,企业报表成千上万的原因往往也是没有沉淀造成的,针对一个业务报表,由于不同的业务人员提出的角度不同,会幻化出成百上千的报表,如果有报表中台的概念,就可以提出一些基准报表的原则,比如一个业务一张报表,已经有的业务报表只允许修改而不允许新增,自然老报表就会由于新的需求而不断完善,从而能演化成企业的基础报表目录,否则就是一堆报表的堆砌,后续的数据一致性问题层出不穷,管理成本急剧增加,人力投入越来越多,这样的事情在每个企业都在发生。
3、数据驱动业务创新
我们都知道,以往的业务决策,大多是凭经验拍脑袋的,现如今,数据的价值和重要性不言而喻。企业的管理者在做决策时,越来越想要先看数据。所以,好的数据基础,是决策和创新的加速器。而现在市场竞争如此激烈的大环境,不但需要企业做出正确的决策,效率和执行力也是关乎存亡的,数据中台即是数据创新效率的保障。研究过机器学习的都知道,没有好的规整数据,数据准备的过程极其冗长,这也是数据仓库模型的一个核心价值所在,比如运营商中要获取3个月的ARPU数据,如果没有融合模型的支撑,得自己从账单一层层汇总及关联,速度可想而知。在如今的互联网时代,企业都在全力谋求转型,转型的关键是要具备跟互联网公司一样的快速创新能力,大数据是其中一个核心驱动力,但拥有大数据还是不够的,数据中台的能力往往终决定速度,拥有速度意味着试错成本很低,意味着可以再来一次。
4、数据中台孕育新型人才
原来新员工入职要获得成长,一是靠人带,二是找人问,三是自己登陆各种系统去看源代码、了解各系统底层数据结构,这样的学习比较支离破碎,其实很难了解全貌,无法知道什么东西对于企业是重要的,获得的文档资料也往往也是过了时的。现在有了数据中台,很多成长问题就能解决,有了基础模型,新人可以系统的学习企业有哪些基本数据能力,O域数据的增加更是让其有更广阔的视野,有了融合模型,新人可以知道有哪些主题域,从主题域切入去全局的理解公司的业务概念,有了标签库,新人可以获得前人的所有智慧结晶,有了数据管理平台,新人能清晰的追溯数据、标签和应用的来龙去脉,所有的知识都是在线的,新的,意味着新人的高起点。更为关键的是,数据中台让新人摆脱了在起步阶段对于导师的过渡依赖,能快速的融入团队,在前人的基础上进行创新。数据中台天然的统一,集成的特性,有可能让新人打破点线的束缚,快速构筑起自己的知识体系,成为企业数据领域的专家。
数据中台、数据仓库、大数据平台的关键区别是什么?
认可了数据中台的价值,我们自然是想要去快速搭建,然后真正去规划建设的时候,我们会发现,数据中台的建设和数据仓库、大数据平台是有重合的,这就需要我们充分理解三者的区别。
数据中台
数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方式是数据 API;
数据中台距离业务更近,为业务提供速度更快的服务;
数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层
数据仓库
数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表。
数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;
数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,
因此数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。
大数据平台
大数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;
大数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。
当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。
综上,我们会发现,数据中台是在数据仓库和大数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务,本质是一个构建在数据仓库之上的跨业务主题的业务系统。
所以,我们会发现,不论要做哪一个数据项目,数据才是核心,统一数据仓库、主数据是基础。只有打通各业务系统的数据孤岛,将数据标准、口径、模型、存储统一,形成具备完整性、规范性、一致性、准确性和及时性的高质量数据,才能逐渐释放数据价值。
以下这张图很好的展示了这三者的发展关系
数据中台可以说是几十年来企业数据管理发展的产物,是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。
从阿里数据平台的更迭历史中也不难看出,在经历了传统数据库时代到大数据平台再到数据中台,数据中台绝不是一蹴而就,其建设需要有一定的底子!
那么什么样的企业适合建数据中台?
从数据成熟度来看:
① 具有良好的数据底子,拥有丰富的数据维度
② 企业的各业务板块都有数仓和报表,需面向集团构建统一的数据管理平台
③ 多个大数据场景,例如:阿里、淘宝、天猫、支付宝等多个业务板块的场景
从业务性质来看:
① toC业务,且业务运营非常依赖用户/客户数据
② 企业内部运营多业态/品牌/产品的客户数据,需要打通数据共享。
③ 供应链特别复杂的企业,需要数据驱动优化
④ 生产制造业,生产线上的数据需要数据中台来整合服务化
如何进行数据价值变现?
无论是数据中台也好,数据仓库也好,还是数据平台,终都是为了让数据的价值更好的作用于业务、经营和管理上。
这三种方案都具有一定的适用性,需要结合企业不同的发展阶段来判断,具体:信息化水平,数据体量、业务性质、还有数据成熟度等。
如何应用数据?这里结合帆软14年来为超万家企业提供的大大小小的数据应用解决方案,给出个人的一些想法。大致分为几个阶段:
首先,把数据管理起来,形成统一数据资产(数据资产不等同于数据,数据资产是的,能为业务产生价值的数据)
其次,将数据可视化,在我们将数据自动化、可视化的呈现出来的过程中,我们能够充分释放数据的信度、效度、准确度方面的价值。这也是为什么越来越多的传统企业在进行数据项目规划时,通常会先做一个叫做”管理驾驶舱”的东西。
其本质就是,通过上层呈现所要保证的一致性和规范性,倒逼下层的数据管理、数据治理,从而逐渐开展数据分析辅助决策、数据驱动业务等。
数据可以告诉决策者一些潜在的规律,以数据来证明或判断决策。
第三个阶段,很多时候,即便数据质量非常完备了,但因为依赖于统计学的数据分析只能对历史的、以往发生过的事情做解释,所以往往总是会慢半拍。
而数据挖掘、机器学习,这些近几年才流行起来的技术,可以充分利用海量的数据,通过算法模型去挖掘数据背后的规律,从而辅助我们提前预测或者个性化推荐。以往我们只会用数据来证明我们历史的决策对错,现在我们用数据来引导我们做出对的决策。
基于数据资产催生的人工智能,将数据进行再融合形成新的数据,源源不断给我们提供新的业务视角,让我们不断创新、不停去尝试。当我们逐渐依赖数据机器人的指令,形成数据服务思维和习惯,让业务与数据形成循环活起来,让它成为业务的一部分,同时让机器智能成为决策环节,运营就可以智能化,即智能化的数字业务系统。
后,想必对于各种企业要做数据项目,想要构建数据中台,我们可以形成一个优先级顺序。
- 以管理驾驶舱为驱动的数据仓库建设
- 面向各业务主题的全面数据治理
- 非结构化数据+海量数据加速的大数据平台
- 把数据变成个性化服务的数据中台