pyspark_casandra在带有spark-cassandra连接器的pyspark中导入问题_2.10:1.3.



我正在使用Spark1.3.0,并希望使用Pyspark连接Cassandra
>pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:1.3.0-M2

它显示成功下载了依赖关系jar并进入Pyspark终端,但我无法进行导入

>>> from pyspark_cassandra import CassandraSparkContext, Row <br/> 
Tracstrong texteback (most recent call last): 
  File "<stdin>", line 1, in <module> 
ImportError: No module named pyspark_cassandra 

我也试过

sudo -u hdfs pyspark --packages TargetHolding:pyspark-cassandra:0.1.5 


以及使用--jars option的组合罐子。还是一样。同样的方法也适用于使用scala的sparkshell。我是蟒蛇的新手。我是不是错过了什么?

您可能应该这样设置PYTHONPATH:

export SPARK_HOME=/usr/local/ilias/apache-spark/1.3.0
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH

1.3.0-M2 没有软件包发布

目前火花组件上唯一的版本是1.4.0-M3

查看下面的链接以了解当前包裹

http://spark-packages.org/package/datastax/spark-cassandra-connector

一旦你运行它,访问C*的方式是通过数据框架API

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

相关内容

  • 没有找到相关文章

最新更新