hadoop map-reduce有没有比apache spark做得更好的用例?



我同意iterativeinteractive编程范例使用spark比使用map-reduce要好。我也同意我们可以使用HDFS或任何hadoop数据存储,如HBase作为Spark的存储层。

因此,我的问题是-在现实世界中,我们是否有任何用例可以说hadoop MR在这些上下文中比apache spark更好?这里"Better"是指performance, throughput, latency。hadoop MR仍然比spark更适合做批处理。

如果是,谁能告诉advantages of hadoop MR over apache spark ?

请保持整个讨论范围与COMPUTATION LAYER有关。

正如您所说,在iterativeinteractive编程中,spark比hadoop更好。但是spark对内存有很大的需求,如果内存不够,很容易抛出OOM异常,hadoop可以很好地处理这种情况,因为hadoop有很好的容错机制。

其次,如果Data Tilt发生,spark也可能崩溃。我比较了spark和hadoop的系统健壮性,因为这将决定作业的成败。

最近我用一些基准测试了spark和hadoop的性能,根据结果,spark在一些负载上的性能并不比hadoop好,例如kmeans, pagerank。也许记忆是火花的限制

相关内容

  • 没有找到相关文章

最新更新