我同意iterative
和interactive
编程范例使用spark比使用map-reduce要好。我也同意我们可以使用HDFS或任何hadoop数据存储,如HBase作为Spark的存储层。
因此,我的问题是-在现实世界中,我们是否有任何用例可以说hadoop MR在这些上下文中比apache spark更好?这里"Better"是指performance, throughput, latency
。hadoop MR仍然比spark更适合做批处理。
如果是,谁能告诉advantages of hadoop MR over apache spark
?
COMPUTATION LAYER
有关。正如您所说,在iterative
和interactive
编程中,spark比hadoop更好。但是spark对内存有很大的需求,如果内存不够,很容易抛出OOM异常,hadoop可以很好地处理这种情况,因为hadoop有很好的容错机制。
其次,如果Data Tilt发生,spark也可能崩溃。我比较了spark和hadoop的系统健壮性,因为这将决定作业的成败。
最近我用一些基准测试了spark和hadoop的性能,根据结果,spark在一些负载上的性能并不比hadoop好,例如kmeans, pagerank。也许记忆是火花的限制