火花写入拼花地板HDFS非常慢的多节点



我用--master local[*]、运行得很好

但是当我在多节点集群上运行spark-submit时--master ip of master:port --deploy-mode client:我的应用程序运行良好,直到将HDFS写入镶木地板,它不会停止,没有错误消息,什么都没有,仍在运行。。我在应用程序中检测到了阻塞部分,它是:

resultDataFrame.write.parquet(path) 

我试过了带有

resultDataFrame.repartition(1).write.parquet(path)

但还是一样。。。

提前感谢的帮助

我可以看到您正在尝试使用master作为local[*],它将在本地模式下运行spark作业,并且无法使用集群资源。

若您在集群上运行spark作业,您可以查找spark提交选项,例如,master as yarn和deploy mode is cluster,下面提到的命令。

spark-submit--class**--master yarn--deploy模式集群**--conf=…#其他选项[应用程序自变量]

一旦您使用yarn master运行spark作业并将模式部署为集群,它将尝试利用所有集群资源。

最新更新