卡桑德拉(Cassandra)的火花设置适当的设置是什么?



在使用和使用火花连接器时,我想以最有效的方式使用它。

是在Cassandra Node所在的同一主机上设置Spark Worker的适当方法吗?火花连接器是否确保数据位置?

我有些担心,记忆密集型火花工人会导致整个机器停止,然后我会失去一个Cassandra节点,所以我有点困惑,是否应该将工人放在Cassandra Nodes上还是分开(这意味着没有数据局部性(。什么是常见方法,为什么?

这取决于您的特定用例。有些事情要注意

1(CPU共享,而在Spark和Cassandra之间不会共享内存(堆将是分开的(。没有什么可以阻止火花执行者在C* CPU内核上窃取时间。如果火花过程非常密集,这可能会导致C*的负载和减速。如果不是这样,那不是问题。

2(您的网络速度,如果您的网络非常快,那么本地的价值比您在较慢的网络上要少得多。

因此,您必须问自己,您是否需要更简单的设置(所有地方(还是想要复杂的设置但更孤立。

例如,dataStax(我为我工作的公司(默认情况下与卡桑德拉(Cassandra(一起运行的船只火花,但我们还提供了单独运行的选项。我们的大多数用户可能是由于此默认值而进行的。

最新更新