回顾数据仓库的发展历程,大致可以将其分为几个阶段:萌芽探索到全企业集成时代、企业数据集成时代、混乱时代--"数据仓库之父"间的论战、理论模型确认时代以及数据仓库产品百家争鸣时代。
到了80年代初,W.H.Inmon 开始了“记录系统”、“本原数据”、“决策支持数据库”等专题的研究。几乎同时,J. Martin在关于数据库分类的研究中,专指一种他称之为“第4类数据库”的“由用户驱动的计算环境”,为这种环境提供信息服务的是一种以“搜索和快速信息回收”为基本特征的数据库。这个定义已经和后来的数据仓库十分类似。
早期MPP时代的数仓
IBM DB2和Teradata是早期数仓理论的实践者,也是市场。其中Teradata是MPP数仓成功的商业产品,几乎是行业的天花板。诞生于1970年代末的Teradata公司,名称来源于Tera Bytes,TB数据的存储也展示了哪个年代创业者的雄心壮志。终于在1992年个TB 级的数据库在华尔街出现。1999年,客户拥有130TB的数据分布于176个节点。短短7年时间,Teradata客户的数据规模翻了176倍。
但进入新千年后,数据库巨头间的竞争进入白热化阶段,以Oracle Exadata为代表的一体机很快崭露头角。之后在Postgres基础上演变而来的Greenplum构建了开源的MPP架构数仓,也在市场中有很高的影响力。但真正让数仓焕然一新的是云计算时代的云原生数仓Snowflake。
一体机时代的数仓
新千年后,数仓进入一体机的快速发展时代,典型代表是Netezza、SAP HANA和Oracle Exadata。Netezza率先推出,后来被IBM收购。而Oracle Exadata为代表的一体机依然是今天Oracle公司的核心业务。2008年,Exadata V1诞生,由Oracle提供软件惠普提供硬件,这一代产品仅支持数据仓库和商务智能等OLAP工作。到了2009年9月,Exadata V2发布,采用了SUN的(此后MySQL也属于了Oracle),次年Oracle完成了SUN的收购。在V2版本中,Exadata存储节点中采用了Flash卡,从而可以同时支持OLAP和OLTP类型的负载。有了高性能产品的同时也有了极其昂贵的价格。
$1,150,000 硬件价格
$1,680,000 存储服务器的软件价格
$369,600 存储服务器软件支持和维护费用(以22%计)
$1,520,000 Oracle企业版软件价格($47.5k*8 servers*8 cores*0.5 Intel core factor)
$736,000 Oracle RAC软件价格($23k*8 servers*8 cores*0.5 Intel core factor)
$368,000 Oracle分区特性价格 ($11.5k*8 servers*8 cores*0.5 Intel core factor)
$368,000 Oracle压缩(Advanced Compression) ($11.5k*8 servers*8 cores*0.5 Intel core factor)
$160,000 Oracle企业管理器诊断包(推荐安装)
$160,000 Oracle企业管理器调优包(推荐安装)
$728,640 以上除去存储服务器软件的年软件维护支持价格(以22%计)
Oracle Exadata 一体机
云计算时代的数仓
随着移动互联网、物联网的蓬勃发展,率先掀起数据库革命的是Google公司,他的三篇论文开启了大数据时代,之后言数仓、大数据必称Hadoop。但它的弊病也颇为明显,昂贵、不方便使用、难维护等问题始终无法很好的解决。直到计算机行业七彩祥云--云计算出现,为整个行业和人类生活带来巨大变化。而此时的数据仓库在变更的前夜显得异常安静,古语言:三年不鸣一鸣惊人,Snowflake 就是三年不飞一飞冲天的云计算时代云原生数仓产品。
2012年,在Oracle公司工作十多年的2位程序员决心在云上建立一个数据仓库,于是诞生了Snowflake公司。它诞生的天,就有云计算的特点:存储与计算分离、按量付费、云中立。作为个基于云原生的数据仓库,Snowflake 敏锐的抓住从本地到上云的时代趋势,充分利用公有云强大基础设施能力,让用户更加轻松实现跨云平台、跨区域的方式移动数据。这种基于云原生、云中立、跨多云平台的云原生数据服务,为客户提供巨大数据价值的同时,极大降低了客户使用、维护、价格成本。
Snowflake产品上的成功同时也取得资本市场的巨大成功。2020年9月16日,在纽交所成功IPO,股神巴菲特斥几亿美元入股,交易首日股价翻倍市值达到704亿美元,成为史上规模大的软件IPO,之后市值一度高突破1200亿美元,俨然成为资本市场的宠儿。
数据仓库和数据库关系
总结和展望
数据仓库是80~90年代提出的概念,互联网企业为了解决更大数据量的管理问题,掀起了大数据技术新浪潮,大数据已经跳出了数仓定义领域,未来再专题阐述。随着2020年云原生数仓Snowflake上市并取得巨大的成功,大家开始趋向把数据仓库、大数据、数据湖、云存储的技术全面融合,全世界掀起了云原生数据仓库和湖仓一体的热潮,国际上Databricks、Clickhouse已经正面PK,国内有SequoiaDB、MaxCompute,AnalyticDB,GaussDB(DWS),OuShuDB、StarRocks、SelectDB、HashData等不下数十款产品,还有很多类似HTAP新品在路上,未来必将迎来百仓大战的腥风血雨。
数据仓库发展史