笔者曾经看过一个非常有趣的比喻,Hadoop是家大型包工队,可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce),但是速度比较慢。
Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS,Cassandra,S3,HBase),还允许不同专家如YARN、MESOS对人员和任务进行调度。
所以,后,哪一家会胜出呢?
Hadoop是什么?
它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围大的Hadoop供应商),MapR或HortonWorks等厂商提供。 Spark是一个较新的项目,初于2012年诞生在加州大学伯克利分校的AMPLab。它也是一个Apache项目,专注于在集群中并行处理数据,大的区别在于它在内存中运行。