Spark如何通过spark-Cassandra连接器写入/读取过程,这与CQLSH读/写过程不同



我是Spark的新手,试图了解,当通过Cassandra集群上的spark-Cassandra连接器使用它时,Spark是如何有利的。

  1. 如何通过 spark-Cassandra 连接器(spark SQL 查询)向 Cassandra 写入(示例 savetocassandra)工作,它是否仍然涉及协调器节点?
  2. 读取到Cassandra
  3. 如何通过spark-Cassandra连接器(spark SQL查询)工作,它是否仍然涉及协调器节点?
  4. 是什么让Spark在集群上的高范围读取扫描中克服了Cassandra的负载?
  5. 如何通过 spark-Cassandra 连接器在 Cassandra 集群上执行高范围扫描 cql 读取查询?
  6. 在Cassandra
  7. 集群上使用IN子句通过Spark-Cassandra连接器是优势吗?

这是一个很好的解释。我还推荐其他罗素演讲,如果你想了解火花-卡桑德拉-连接器内部Cassandra 和 Spark Optimization for Data Locality - Russell Spitzer (DataStax)https://www.youtube.com/watch?v=ikCzILOpYvA

最新更新