如何使用Cassandra Keyspace创建Spark DataFrame



我有cassandra的本地安装。我必须与Google Colab一起使用Spark,并且可以从本地数据库中运行查询。但是我知道可以更有效地连接火花和卡桑德拉。我想创建一个带有Cassandra Keyspace数据的数据框架。你怎么做?

我的密钥空间称为yelp_data。它包含"评论"one_answers"业务"表。

在我的项目中,我想要一个dataframe df =(来自我的cassandra Keyspace的数据)。我使用pyspark。

只需遵循Spark Cassandra连接器的文档,然后将spark.read与正确的选项一起使用,例如:

reviews_df = spark.read.format("org.apache.spark.sql.cassandra")
  .options(table="reviews", keyspace="yelp_data").load()
business_df = spark.read.format("org.apache.spark.sql.cassandra")
  .options(table="business", keyspace="yelp_data").load()

最新更新