我已经在hadoop
和yarn
上安装了spark。当我启动pyspark shell
并尝试计算一些东西时,我得到这个错误。
Error from python worker:
/usr/bin/python: No module named pyspark
pyspark
模块应该在那里,我必须把外部链接到它吗?
我也遇到过同样的问题。这是由于用Java7构建Spark。使用Java6应该可以解决这个问题。这实际上是python的错——它的zipimport模块不支持Java7使用的Zip64格式来打包包含65536个以上文件的大型Jar。这是帮助我的谷歌热搜。http://mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/%3CCAMJOb8kcGk0PqiOGJu6UoKCeysWCuSW3xwd5wRs8ikpMgD2DAg@mail.gmail.com % 3 e
这也解释了它。https://issues.apache.org/jira/browse/spark - 1911