我已经学会了如何在多节点上设置pyspark。现在我已经创建了我的第一个pyspark代码,只创建了一个数据框并在其中打印其数据。
但是现在我想运行和执行我的pyspark代码,我把它命名为&;firstcode.py&;。我试过搜索,但不知道该怎么做。比如如何运行它,我应该在哪里执行脚本来运行我的"firstcode.py"文件?
您可以在集群中的任何主机上使用spark submit提交代码。资源使用,附加库vs可以配置。Master url可以是yarn、local、standalone、kubernetes等。您可以查看提交申请的详细信息。
master作为yarn的示例脚本:
spark-submit
--master yarn
--deploy-mode cluster
--executor-memory 1g
--num-executors 2
myCode.py
独立spark示例脚本
spark-submit
--master spark://host_ip:7077
--deploy-mode cluster
--executor-memory 1g
myCode.py