如何检查 Apache Spark Job 的性能



我已经安装了Apache Spark 2.3.1,需要检查哪个脚本是有效的

问题:

1.如何监控 Apache Spark 脚本的执行?

2.这些脚本中哪一个是有效的?

rdd = sc.textFile("Readme.txt")

1:

rdd.flatMap(x => x.split(" ")).countByValue()

阿拉伯数字:

words = rdd.flatMap(lambda x: x.split(" "))
result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y)

使用 Spark Web UI,它包含监控性能所需的信息,包括时间、执行者统计信息、阶段统计信息、任务统计信息、资源统计信息等。

最新更新