小贝子编程

运行带有numpy、pandas和scikit-learn等依赖包的pyspark

本文关键字：依赖 pyspark scikit-learn 行带 numpy pandas 运行 python numpy apache-spark scikit-learn pyspark
更新时间 : 2023-08-25
英文 : running pyspark with dependency package like numpy, pandas and scikit-learn

我最近开始使用pyspark来使用scikit-learn。但是，我们没有权限在工作节点中安装像numpy这样的依赖包。是否有可能我们打包一个虚拟环境，并使用——py-files来动态地发送给worker，并以某种方式提取它，并告诉spark使用我自己的python(带依赖项)?欢迎指教。

谢谢

如何正确地将虚拟环境加载到主服务器和所有从服务器:

virtualenv venv --relocatable
cd venv 
zip -qr ../venv.zip *
PYSPARK_PYTHON=./SP/bin/python spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./SP/bin/python --driver-memory 4G --archives venv.zip#SP filename.py

运行带有numpy、pandas和scikit-learn等依赖包的pyspark

相关内容

最新更新

热门标签：