apache spark有地理感知吗?

我正在尝试选择跨不同站点的apache spark集群拓扑。spark有自己的感知能力吗?

例如，假设俄勒冈州和槟城有一个工人集群。

现在当提交一个应用程序时，它从俄勒冈加载数据并处理它并将其保存回俄勒冈。俄勒冈州的工人会被优先考虑吗(如果他们是免费的)?

如下所述https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html

Spark依赖于数据局部性，也就是数据放置或接近数据源，这使得Spark作业对数据的位置非常敏感。因此，让Spark运行在Hadoop YARN集群上是非常重要的如果数据来自HDFS。数据系统本身可能是地理感知的，例如cassandra: Spark使用数据局域性吗?http://www.slideshare.net/RussellSpitzer/spark-cassandralocality

相关内容

最新更新

热门标签：