绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
阿里数据中台与OneData
2020-07-09 18:20:38

企业发展初期,数据研发是紧贴业务发展而演变的,数据体系基于业务单元垂直建立,形成多个垂直化业务数据体系。

随着企业发展,业务需要的数据不再是垂直化的,向数据研发提出了多数据类型的数据使用需求。


跨垂直单元的数据问题繁多:


1)数据标准不统

在建立OneData之前,阿里数据有30000多个指标,其中,即使是同样的命名,但定义口径却不一致。例如,仅uv这样一个指标,就有十几种定义。带来的问题是:都是uv,我要用哪个?都是uv,为什么数据却不一样?


2)服务业务能力

由于数据模式是跟着垂直业务,导致一开始只支持了淘宝、天猫、1688等少数业务团队。而更多有个性化需求的业务团队却无法提供更多支持。


3)计算存储成本

由于没有统一的规范标准管理,造成了重复计算等资源浪费。而数据表的层次、粒度不清晰,也使得重复存储严重,仅淘系的数据表就超过了25000张,集团总数据的存储量每年以2.5倍的速度在增长,可以预见的未来的将会带来巨大的数据成本负担,我们不得不去做一些改变。


4)研发成本

每个工程师都需要从头到尾了解研发流程的每个细节,对同样的“坑”每个人都会重新踩一遍,对研发人员的时间和精力成本造成浪费


阿里数据中台战略中的OneData统一数据标准和实时数据分析就解决了打通垂直化业务数据的需求。


OneData是阿里数据中台的核心,OneData体系建立在集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。


OneData数据公共层对原30000多个数据指标进行了口径规范和统一,梳理缩减为3000余个。


OneData体系


OneData体系即建立企业统一的数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。

以Kimball的维度建模为核心理念基础的模型方法论,同时对其进行了一定的升级和扩展,构建了阿里集团的数据架构体系——OneData

该体系包含:数据规范定义体系、数据模型规范设计、ETL规范研发以及支撑整个体系从方法到实施的工具体系。


1数据规范定义


OneData体系中将此前个性化的数据指标进行规范定义,抽象成:原子指标、时间周期、其他修饰词等三个要素。


如:业务方提出的需求:最近7天的成交


分解为:原子指标(支付订单金额)+修饰词-时间周期(最近7天)+修饰词-卖家类型(自营)


2数据模型架构

将数据分为ODS(操作数据)层、CDM(公共维度模型)层、ADS(应用数据)层。


ODS层主要功能

同步:结构化数据增量或全量同步到ODPS;

结构化:非结构化(日志)结构化处理并存储到ODPS;

累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗;


CDM层主要功能

CDM层又细分为DWD层和DWS层,分别是明细宽表层和公共汇总数据层,采取维度模型方法基础,更多采用维度退化手法,减少事实表和维度表的关联,加强维度到事实表强化明细事实表的易用性;

同时在汇总数据层,加强指标的维度退化,采取更多宽表化的手段构建公共指标数据层,提升公共指标的复用性,减少重复的加工。


ADS层主要功能

个性化指标加工:不公用性;复杂性(指数型、比值型、排名型指标)

基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串

其模型架构图如下,阿里通过构建全域的公共层数据,极大的控制了数据规模的增长趋势,同时在整体的数据研发效率,成本节约、性能改进方面都有不错的结果。



3研发流程和工具落地实现

将OneData体系贯穿于整个研发流程的每个环节中,并通过研发工具来进行保障。



分享好友

分享这个小栈给你的朋友们,一起进步吧。

数据中台
创建时间:2020-07-08 14:50:02
数据中台解决方案以数据中台建设为核心,以数据化咨询与数据化运营为双引擎驱动的企业整体数字化转型解决方案.
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • Jack2k
    专家
戳我,来吐槽~