腾讯面试官:“ 我们部门是AI组下面NLP全栈,包括前台、中台、后台.....,你做过数据中台么?“
我:”.....(啥是中台??)“那不好意思,到此你的面试就结束了。
造概念这个词,IT行业的各位可能并不陌生。中文博大精深,我很佩服可以发明出新名词、新概念的人,这些词简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏、各有趣味。
比如“中台”这个词就是其中之一,自从阿里提出的“大中台,小前台”之后,各种中台概念就被生造出来了,鱼龙混杂;许多旧的架构也摇身一变,被包装成各色中台……这不禁让我们深深怀疑:中台这东西,到底靠谱吗?
在回答这个问题之前,我们先看看数据中台应该怎么理解?
它是工具?是方法?还是组织架构?我的回答是:都有,但都不全是。
企业所属行业不同,经营策略不同,从而数据场景也千差万别。再加上企业人员运用数据的能力参差不齐,这就导致了每一家企业的数据中台都是独一无二的,不是购买一个所谓的数据中台工具就能解决的。
数据中台的本质就是“数据仓库+数据服务中间件”。
中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
给大家举个生动形象的例子吧:小渔村的改革自强之路。
1. 海边有个小渔村,准备搞市场经济,把村子发展为鱼塘,大家可以把这个“鱼”想象成“数据”。
2 由于每位村民捕鱼技巧和喜好不同,所以他们从大鱼塘捞上来的海鲜品种也不一样,于是原始的业务数据积累就产生了。同时,海鲜腐烂,就是业务数据多源异构的问题,质量和时效参差不齐。
3. 整个村子生意越做越不错,很多临近的村子前来主动采购,于是“数据需求”开始呈现出卖方市场的迹象。因此村长又决定海鲜市场做销售批发,并成立专门的运输团队。这样不仅保证了时效有统一保障,大家的货损都少了,这可以理解为数据平台成立了。
4. 村长又发现,由于客户对于海鲜的做法不同,有些人并不太在意新鲜程度,因此决定建立一个大型冷库,这就是我们常说的数据仓库的构建。
5. 整个村子奔小康,而且贸易更加频繁、市场成长很快,因此村子里铺设了符合国家标准的铁轨、修建了车站,还兴建了国际港口,符合万吨轮级别的航运要求。这就是中台提供标准的数据接口,不仅执行数据接入,还提供数据订阅、数据消费的作用。
数据中台的3个能力
1. 在中台能力及资源充足的情况下(包括业务知识、技术能力、人才积累),提供数据产品、数据服务。
一般而言,数据应用是上层的概念,让用户去使用的东西,无非不过是:
- 决策支持类:主题报表(月度/季度/年度/专题)、、大屏数据可视化展示
- 数据分析类:BI商业智能、OLAP分析、数据挖掘、数据驱动的机器学习
- 数据检索类:全文检索、日志分析、数据血缘分析、数据地图
- 数据共享开放类:实时数据订阅、离线数据接触、数据API接出
2. 在中台业务能力及人力资源不充分、但体系相对成熟的情况下(包括数据体系、技术体系),提供平台级别的能力,包括数据平台能力、技术平台能力、建模平台能力等,甚至是数据本身。
以前当我们可以提供较完备的数据仓库/集市的时候,产生了自助式的BI分析,解决了业务人员需求报表,但技术人员来不及做的尴尬;现在我们也理应打造这样的中台,通过这样的能力,给业务人员提供自助式的、一站式的、从产生数据到产生价值的完整通路。
3. 在中台人力资源和对业务领域知识理解不充分,平台级别能力也无法满足要求的情况下,作为算力基础平台提供服务。
当提供这一种能力的时候,数据中台的人力投入应该是低的,但需要进行资源的日常监控和任务管理。
数据中台和数据平台的关系?
很多人会疑惑这个点,同样是很火的东西,大数据平台与数据中台的差别在哪里呢?
其实,数据中台与大数据平台本质的区别在于数据中台是具备业务属性的,输入的是原始数据,输出的是指标。
如果我们把数据中台看作是一个汽车工厂,那大数据平台就是工厂中的设备,Hadoop 集群则是工厂运作所必须的水、电、煤。
Hadoop提供的是大数据生产所必须的计算和存储资源,大数据平台使得数据开发人员具备了对数据的加工和处理能力,但还不能提供产品,这么多的原始数据,要按照一定的方法论,进行良好的组织,加工,才能生成终的指标。