在linux ubuntu 18.04.5中运行我的第一个pyspark代码



我已经学会了如何在多节点上设置pyspark。现在我已经创建了我的第一个pyspark代码,只创建了一个数据框并在其中打印其数据。

但是现在我想运行和执行我的pyspark代码,我把它命名为&;firstcode.py&;。我试过搜索,但不知道该怎么做。比如如何运行它,我应该在哪里执行脚本来运行我的"firstcode.py"文件?

您可以在集群中的任何主机上使用spark submit提交代码。资源使用,附加库vs可以配置。Master url可以是yarn、local、standalone、kubernetes等。您可以查看提交申请的详细信息。

master作为yarn的示例脚本:

spark-submit 
--master yarn 
--deploy-mode cluster 
--executor-memory 1g
--num-executors 2
myCode.py

独立spark示例脚本

spark-submit 
--master spark://host_ip:7077 
--deploy-mode cluster 
--executor-memory 1g 
myCode.py

最新更新