如何在 Kubernetes 环境中实现 spark-cassandra 连接器的"repartitionByCassandraReplica "?



我在这里看到了这个问题(问题链接(。我认为在Kubernetes环境中,可能不可能在同一台机器上共同定位spark工作人员/执行人员。这个问题的答案看起来是正确的。我想知道spark-cassandra连接器是否提供了其他方法来在Kubernetes环境中实现类似的功能。

除非将Cassandra和Spark都部署在同一个容器中,否则根据定义,Cassandra数据不能是Spark worker/executor的本地数据。

正如我在回答https://community.datastax.com/questions/11464/,Cassandra和Spark JVM必须存在于同一个容器/VM/服务器中,数据才能是本地的。干杯

最新更新