在hadoop和yarn上安装pyspark



我已经在hadoopyarn上安装了spark。当我启动pyspark shell并尝试计算一些东西时,我得到这个错误。

Error from python worker:
  /usr/bin/python: No module named pyspark

pyspark模块应该在那里,我必须把外部链接到它吗?

我也遇到过同样的问题。这是由于用Java7构建Spark。使用Java6应该可以解决这个问题。这实际上是python的错——它的zipimport模块不支持Java7使用的Zip64格式来打包包含65536个以上文件的大型Jar。这是帮助我的谷歌热搜。http://mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/%3CCAMJOb8kcGk0PqiOGJu6UoKCeysWCuSW3xwd5wRs8ikpMgD2DAg@mail.gmail.com % 3 e

这也解释了它。https://issues.apache.org/jira/browse/spark - 1911

相关内容

  • 没有找到相关文章

最新更新