我最近开始使用pyspark来使用scikit-learn。但是,我们没有权限在工作节点中安装像numpy这样的依赖包。是否有可能我们打包一个虚拟环境,并使用——py-files来动态地发送给worker,并以某种方式提取它,并告诉spark使用我自己的python(带依赖项)?欢迎指教。
谢谢
如何正确地将虚拟环境加载到主服务器和所有从服务器:
virtualenv venv --relocatable
cd venv
zip -qr ../venv.zip *
PYSPARK_PYTHON=./SP/bin/python spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./SP/bin/python --driver-memory 4G --archives venv.zip#SP filename.py