我正在使用Spark1.3.0,并希望使用Pyspark连接Cassandra>pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:1.3.0-M2
它显示成功下载了依赖关系jar并进入Pyspark终端,但我无法进行导入
>>> from pyspark_cassandra import CassandraSparkContext, Row <br/>
Tracstrong texteback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: No module named pyspark_cassandra
我也试过
sudo -u hdfs pyspark --packages TargetHolding:pyspark-cassandra:0.1.5
以及使用--jars option
的组合罐子。还是一样。同样的方法也适用于使用scala的sparkshell。我是蟒蛇的新手。我是不是错过了什么?
您可能应该这样设置PYTHONPATH:
export SPARK_HOME=/usr/local/ilias/apache-spark/1.3.0
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
1.3.0-M2 没有软件包发布
目前火花组件上唯一的版本是1.4.0-M3
查看下面的链接以了解当前包裹
http://spark-packages.org/package/datastax/spark-cassandra-connector
一旦你运行它,访问C*的方式是通过数据框架API
https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md