目前,比较流行的、开源的大数据处理框架:Hadoop,Storm,Spark和Flink。
大数据处理分析的相关技术
大数据包括静态数据(批处理)和流数据(实时计算)。另外,大数据中还包括很多图结构数据,因此新的图计算框架应运而生,Pregel就是其中一个具有代表性的产品。
数据可视化是大数据分析的后一个环节,通过丰富的视觉效果,把数据以直观、生动、易理解的方式呈现出来。
业界比较流行的分布式批处理框架,有Apache Hadoop/MapReduce和Apache Spark等。流处理则需要流数据处理技术,如Apache Storm、Spark Streaming、Apache Flink等分布式计算引擎都能够支持处理流式数据。
目前,在业界比较熟知的开源大数据处理框架中,能够同时支持流式计算和批量计算,比较典型的代表分别为Apache Spark和Apache Flink两套框架。
其中,Spark通过批处理模式来统一处理不同类型的数据集,对于流数据是将数据按照批次切分成微批(有界数据集)来处理。Flink则从另外一个角度出发,通过流处理模式来统一处理不同类型的数据集。终将批处理和流处理统一在一套流式引擎中,这样就可以使用一套引擎进行批计算和流计算的任务。
Pregel是一种基于BSP(Bulk Synchronous Parallel)模型实现的并行图处理系统。为了解决大型图的分布式计算问题,Pregel 搭建了一套可扩展的,有容错机制的平台,该平台提供了一套非常灵活的API,可以描述各种各样的图计算。