绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
聊聊大数据处理分析的相关技术
2019-10-10 10:29:08

目前,比较流行的、开源的大数据处理框架:Hadoop,Storm,Spark和Flink。

大数据处理分析的相关技术

大数据包括静态数据(批处理)和流数据(实时计算)。另外,大数据中还包括很多图结构数据,因此新的图计算框架应运而生,Pregel就是其中一个具有代表性的产品。

数据可视化是大数据分析的后一个环节,通过丰富的视觉效果,把数据以直观、生动、易理解的方式呈现出来。

业界比较流行的分布式批处理框架,有Apache Hadoop/MapReduce和Apache Spark等。流处理则需要流数据处理技术,如Apache Storm、Spark Streaming、Apache Flink等分布式计算引擎都能够支持处理流式数据。

目前,在业界比较熟知的开源大数据处理框架中,能够同时支持流式计算和批量计算,比较典型的代表分别为Apache Spark和Apache Flink两套框架。

其中,Spark通过批处理模式来统一处理不同类型的数据集,对于流数据是将数据按照批次切分成微批(有界数据集)来处理。Flink则从另外一个角度出发,通过流处理模式来统一处理不同类型的数据集。终将批处理和流处理统一在一套流式引擎中,这样就可以使用一套引擎进行批计算和流计算的任务。

Pregel是一种基于BSP(Bulk Synchronous Parallel)模型实现的并行图处理系统。为了解决大型图的分布式计算问题,Pregel 搭建了一套可扩展的,有容错机制的平台,该平台提供了一套非常灵活的API,可以描述各种各样的图计算。

分享好友

分享这个小栈给你的朋友们,一起进步吧。

数据分析与数据挖掘
创建时间:2020-06-17 15:23:29
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求大化地开发数据的功能,发挥数据的作用。 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 栈栈
    专家
戳我,来吐槽~