技术专家
祁国辉
前 Oracle 云平台事业部电信行业技术总监
【作者介绍】网名"atiger",前 Oracle 云平台事业部电信行业技术总监。拥有超过25年数据库和数据仓库HK经验。曾创办数据仓库网站:www.dwway.com (数据仓库之路)。
写在前面:
随着中台概念的提出, 业界始终对中台毁誉参半, 这一点就像很多年前的BPR(业务流程重组),支持者认为这是传统企业走向现代化企业的必由之路, 随着BPR的逐步实施, 必然带来企业的涅槃重生,一飞冲天。
但是反对者总认为每个企业都有自己的独特的DNA, 机械地学习和模仿其他企业的业务流程,终必然是邯郸学步,削足适履。
而当中台这个概念被抛出之后, 也引发了大量的争论和评价。
责编 | 韩楠
约 2437 字 | 5 分钟阅读
以下,Enjoy~
在此背景下,我想我们有必要思考,或者不得不重新思考这样的几个关键问题点,到底什么是数据中台?数据中台和数据仓库有什么区别?数据中台和数据挖掘机器学习有什么关系?
我们今天尝试从数据分析发展脉络的角度来看看,数据仓库是在什么背景之下产生的, 数据中台是怎么产生的,从而分析数据仓库和数据中台之间的区别与联系,以便于帮助你深入理解数据中台的核心精髓, 能够少走弯路。
首先, 数据仓库出现在上世纪90年代,主要原因是当企业实现信息化之后,出现了大量的数据资产。一方面大家都觉得这是非常宝贵的财产, 其中蕴含着巨大的价值, 但是另一方面,苦于不知该如何对这些数据进行进一步的处理。
当时大多数企业还埋头于会计电算化,把各种各样的账本,交易记录,用户信息等变成数据。而作为企业的管理者, 迫切想要了解的是, 这些数据背后,有没有什么规律可循?
每月的月度报表, 销售数据的涨跌, 生产线良品率的波动。
基于这些数据,企业的管理层可以有针对性地采取相应的对策来应对,比如利用促销来提升销量, 发现生产线上容易出现问题的卡点并尽心纠正。故而一言以蔽之, 数据仓库实际上是一个和生产系统松耦合, 相对独立的一个离线分析系统。所以, 这个阶段,数据仓库主要的目标是提供数据报表, 为管理层提供决策支持。
01⎪ 数据仓库中的数据分析
数据仓库建立起来之后, 用户往往在想, 我有这么多数据, 是不是有什么隐含在数据背后, 我暂时不知道的规律, 如果我能发现这些规律, 我就一定能够快人一步, 提前做出相应预案, 从而竞争环境中处在领先地位。
但是这些规律是什么?我们怎么去发现这些规律呢?这时候就出现了不同的方法。
有一些用户天生对业务有独特的洞察, 这些人的方法是思在行前, 首先看到一些模糊的方向, 然后通过对数据的剖析来验证自己的猜想, 多维分析,自定义查询等等工具就是天生为这类用户服务的。
这种可以通过不同条件组合, 快速对数据进行切片分析的工具,可以很好地支持用户对业务规律猜想的验证。
而另外一些用户更相信直觉, 我感觉应该向哪个方向考虑, 但是怎么做我不知道。举个例子,20年前,中国移动在完成经营分析系统建设之后, 觉得不同的用户对手机套餐的需求肯定是不一样的,但是具体怎么做呢,不知道!
这个时候,数据挖掘算法就可以体现它的价值, 利用挖掘算法对用户特征进行聚类, 实际上就自然催生出了一系列不同的品牌,比如动感地带、 神州行、全球通等。所以对于未知规律的发现, 首推数据挖掘。
02⎪ 中台战略中的数据中台
而近随着阿里系的大力推广,中台概念也开始大行其道,而当前的用户需求并不仅仅要实现离线分析, 而是更加强调应用系统之间的协同。
有个笑话说,为什么要推中台概念,原因是业务系统去IOE,已经被拆得七零八落, 而且每个部门业务野蛮生长, 必须通过中台才能把这些拆散的系统再次整合起来。
谈到中台, 一般而言, 会分成业务中台和数据中台, 业务中台是希望通过一些可共用,可编制的业务API 来快速组装出新的应用;而数据中台,是希望通过数据API 来为业务中台提供数据支持和智能决策。
我特别欣赏中国移动的智慧中台的概念, 业务中台为业务提供快速编制和部署, 而数据中台为整个中台提供智慧能力。而所谓技术中台, 说白了就是个技术储备平台,是用来储备搭建智慧中台的各种必备的技术,为智慧中台提供技术支撑。
▶︎ 小结
说到这里, 我们大概也看出来了, 数据仓库和数据中台之间是有很明显区别的, 如果我们沿着数据仓库这个路线向前推进的话, 数据中台应该是数据仓库的下一代, 属于闭环决策分析系统, 为什么呢?
我们看数据仓库的产出物,大多数都是离线分析、数据报告、财务月报季报等等。经过大约20多年的发展,基本上框架已经确定, 现在的增长点不过是在新的数据源, 包括各种大数据,上网日志, 用户轨迹等等。数据仓库的服务对象主要是人。其次才是下游系统,或者数据挖掘等等。
而数据中台, 核心在于API, 就是说数据中台的主要用户都是其他系统, 比如呼叫中心, 电子渠道, 网上商城等等, 需要在用户访问的时候,对用户做出针对性地推荐, 或者产品中心在定制新的产品包的时候, 生产大概的目标客户群清单。
这些功能大多数是不需要人工干预的。人工的工作大多数在后台数据准备, 数据模型搭建, 数据API定制发布这些环节, 一旦发布, 这些API 将要面对上百甚至上万级别的系统调用。
但是数据仓库和数据中台,这两者也有很多可以重用的地方, 比如业务系统各种数据的抽取、清洗。各种现有的用户分析模型, 用户360度画像的标签等等, 都是可以基于传统数据仓库来生成的。毕竟企业级数据仓库中已经具备了数据质量管理, 数据治理等等模块, 完全没有必要重启炉灶, 自成一体。
但是数据中台中独有的模型和指标体系的建设,也是和数据仓库不一样的, 因为数据中台的建设, 一般都是先有用户数据服务的需求, 才会有相应的模型搭建和数据准备, 这个和企业数据仓库中数据模型先行的方法是不同的。
03⎪ 结语
这样一路看来, 我们就可以对数据中台的发展有个更清晰的认识, 首先数据中台和数据仓库大的不同,就是面对的消费者不一样, 数据仓库的消费者大多数是企业内的用户, 而数据中台的消费者更多的是企业内的其他系统,或者其他业务中台应用。
其次数据仓库更多的是离线应用, 主要是各种报表和人机交互的分析工具。而数据中台应该是一个在线系统, 更多的是来自各种不同系统的联机调用。
再者, 就目前来看, 数据仓库和数据中台的数据构成有比较大的差别, 企业的核心数据,比如财务、销售、人才等数据, 基本都存放在企业数据仓库当中, 很少会放在数据中台对外开放。而目前数据中台的数据大多是为了提高用户体验, 优化运维能力等各个方面。更加倾向于市场和用户数据。
好了,这次我们就交流到这里,非常感谢你耐心的阅读,同时很期待我与你能够有更多思想上的交流、碰撞。如果愿意分享,这一讲也欢迎转发给你的朋友,和他一起讨论。
我们后续分享见。