Apache Storm与Apache Spark [对比]

2020-05-09 16:42:48

随着实时数据的增加，对实时数据流的需求也在增长。更不用说，流技术正在引领大数据世界。使用更新的实时流媒体平台，用户选择一个平台变得很复杂。Apache Storm和Spark是该列表中流行的两种实时技术。

让我们根据它们的功能比较Apache Storm和Spark，并帮助用户做出选择。本文的目的是Apache Storm Vs与Apache Spark无关，不是要对两者进行判断，而是要研究两者之间的异同。

什么是Apache Storm与Apache Spark？

要了解Spark Vs Storm，让我们首先了解两者的基础！

Apache Storm是一个开源，容错，可扩展的实时流处理计算系统。它是实时分布式数据处理的框架。它着重于事件处理或流处理。Storm实现了一种容错机制来执行计算或调度事件的多个计算。Apache Storm基于流和元组。

Apache Spark是用于集群计算的闪电般的快速大数据技术框架。它旨在对大型数据集进行快速计算。它是用于分布式处理的引擎，但没有内置的分布式存储系统和资源管理器。需要插入自己选择的存储系统和集群资源管理器。

Apache YARN或Mesos可用于群集管理器，而Google Cloud Storage，Microsoft Azure，HDFS（Hadoop分布式文件系统）和Amazon S3可用于资源管理器。

在这里，我们将解释实时处理工具（例如Apache Spark和Apache Storm）之间在功能方面的区别。让我们逐一查看每个功能，以比较Apache Storm与Apache Spark。这将帮助我们学习并决定根据该特定功能采用哪种更好的方法。

Storm： Apache Storm提供了各种各样的基元，它们按流间隔（功能，过滤器）执行元组级别的处理。在流中，可以通过语义组对信息消息进行聚合，例如，左流，内部连接（默认情况下），流中的右连接由Apache Storm支持。
Spark：在Apache Spark中，有两种流操作符，例如输出操作符和流转换操作符。输出运算符用于在外部系统上写信息，流转换运算符用于将DStream转换为另一个。

Storm： Apache Storm提供了在不同拓扑级别（各种任务，执行程序和工作进程）构建基本并行机制的功能。而且，Storm提供了动态重新平衡，可以减少或增加执行程序和辅助进程的数量，而无需重新启动拓扑或集群。但是，某些主要任务在整个拓扑结构中保持不变。
Spark： Spark社区正在致力于为流应用程序开发动态缩放。值得一提的是，Spark流应用程序不支持弹性缩放。接收拓扑在Spark中是静态的，因此无法使用动态分配。一旦StreamingContext启动，就无法修改拓扑。此外，中止接收器将导致拓扑停止。

Apache Spark和Apache Storm框架在相同程度上具有容错能力。

风暴 -在工作进程级别，执行程序针对特定拓扑独立运行。它表明拓扑任务之间没有连接，因此在执行时导致隔离。另外，执行程序线程只能运行相同元素的任务，以避免不同元素的任务混合在一起。
Spark – Spark应用程序作为不同的应用程序在YARN群集上运行，而执行程序在YARN容器中运行。在同一个JVM中无法执行不同的拓扑，因此YARN提供了JVM级别的隔离。YARN还支持容器级别资源约束的组织，从而提供资源级别隔离。

Storm – Storm中有易于使用且有效的API，它们表明拓扑的本质是DAG。Storm元组是动态编写的。仅需注册Kryo序列化程序，即可轻松插入新的元组。通过编写拓扑并在本机集群模式下运行它们来启动它。
Spark – Spark由具有实用编程的Java和Scala API组成，这使得拓扑代码有些难以理解。但是，就像这样，API文档和示例可供开发人员轻松使用，这变得容易。

Storm – Storm的安装和部署有些棘手。它仍然依赖Zookeeper集群来与状态，集群和统计信息进行协调。它包含一个功能强大的容错系统，该系统不允许守护程序在一段时间内影响拓扑。
Spark – Spark本身是执行Spark Streaming的基本框架。在YARN上维护Spark集群很容易。需要启用检查点以使应用程序驱动程序具有容错能力，这使得Spark依赖于HDFS（即容错存储）。