主流大数据平台介绍
- CDH(Cloudera Distribution Hadoop)
由Cloudera公司开发,有开源版本与商业版本,Cloudera公司2018年和hortonworks公司合并,较为出名的贡献为impala是由Cloudera公司开源贡献给Apache基金会。大数据平台在国内各大企业中应用广泛,甚至开源版本在很多公司中都较为常见,是较为受欢迎的大数据平台之一。
- CDP
是CDH平台的升级版,较为明显的升级动作将权限管理由sentry更改为ranger,增加flink组件parcel包,不用用户自己集成,可直接安装。
- TDH(Transwarp Data Hub)
是星环科技推出的一款大数据平台,是国内发行版大数据平台,是国内领先的大数据平台,没有开源版本,突出特点:
- 对hive高度封装,推出incepter,在性能上相比hive得到明显提升,但是强制分桶,以及事务表等特性。
- 对hbase高度封装,推出hyperbase,支持SQL查询,对二级索引支持较好。
- FI HD&FI MRS
由华为公司开发,较早版本为fusioninsight HD,后推出fusioninsight MRS,是当前较为成熟且在mpp数据库与混合计算领域较为领先的大数据平台,突出特点:
- HD版本中的随机读写数据库为ELK(这个ELK不是es生态的elk,是一个单纯的数据库)
- 将kettle进行封装优化,推出loader数据加载组件
- 推出国产mpp架构数据库gaussdb 100、gaussdb 200、gaussdb 300
- 独有small file小文件管理组件
- hetu engine跨源计算
- 飞天大数据平台
阿里大数据平台,突出特点maxcompute离线分析模块,flink实时计算引擎,并且做了大量优化与新功能开发。