用于执行分布式任务的工具



Spark 仅用于分布式任务执行是否有好处。我有处理大型数据集(从数据库读取,处理,写入数据库)的要求,但是完成的处理是行级的。这意味着我不需要约简或机器学习。

使用火花来满足这种要求会不会有点过分。什么最适合这种要求。我不想编写软件基础架构,这些基础架构将以最佳方式分发,处理故障,重试等

Spark更用于处理(真正)大型数据集和内存中。一种选择是使用任何开源IMDG并以类似的方式处理数据,但(也许)复杂性较低。

您还可以根据要使用的语言来选择IMDG引擎。对于.Net,你可以使用NCache,对于Java,有很多,但你可以使用TayzGrid

相关内容

最新更新