SparkSQL 跨越 Cassandra 逻辑行



我有一个情况,我想使用 SparkSQL "迭代"或映射"宽行"而不是逻辑 Cassandra 行(CQL 行)。

基本上,我的数据按timestamp(分区键)进行分区,并且有一个群集键,即传感器ID。

对于我想执行操作的每个timestamp,一个简单的例子是执行sensor1/sensor2

如何通过保持数据局部性来有效地使用 SparkSQL 做到这一点(我认为我的数据模型非常适合这些任务)?

我在Datastax上阅读了这篇文章,其中提到了Cassandra连接器中的spanByspanByKey。这将如何与SparkSQL一起使用?

伪代码(pySpark)的示例:

ds = sqlContext.sql("SELECT * FROM measurements WHERE timestamp > xxx")
# span the ds by clustering key
# filter the ds " sensor4 > yyy "
# for each wide-row do sensor4 / sensor1

现在不可能。spanBy API 只能从编程 API 访问。要在SparkSQL中启用它,需要扩展SparkSQL语法以注入额外的子句,这是一项艰巨的工作。

相关内容

  • 没有找到相关文章

最新更新