我正在使用pyspark来测试一些示例代码。这是pyspark shell命令我正在运行
./bin/pyspark --conf spark.cassandra.connection.host=172.28.0.162 --conf spark.cassandra.input.split.size_in_mb=32 --packages com.datastax.spark:spark-cassandra-connector_2.10:1.4.0
当我运行以下命令时
import os
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext
sqlContext.read.format("org.apache.spark.sql.cassandra").options(table="events", keyspace="sams").load().show()
我得到这个异常
Failed to load class for data source: org.apache.spark.sql.cassandra
我可以在jar文件或下载的包中看到该包。问题出在哪里?
这是我跟踪的链接
https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md
这恰好是spark 1.4中的一个错误https://issues.apache.org/jira/browse/SPARK-8365