运行带有numpy、pandas和scikit-learn等依赖包的pyspark



我最近开始使用pyspark来使用scikit-learn。但是,我们没有权限在工作节点中安装像numpy这样的依赖包。是否有可能我们打包一个虚拟环境,并使用——py-files来动态地发送给worker,并以某种方式提取它,并告诉spark使用我自己的python(带依赖项)?欢迎指教。

谢谢

如何正确地将虚拟环境加载到主服务器和所有从服务器:

virtualenv venv --relocatable
cd venv 
zip -qr ../venv.zip *
PYSPARK_PYTHON=./SP/bin/python spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./SP/bin/python --driver-memory 4G --archives venv.zip#SP filename.py

相关内容

  • 没有找到相关文章

最新更新