有没有办法在火花提交所用资源后收集统计数据



我正在使用Spark和Yarn作为我的资源管理器。 我正在尝试找到一种方法来收集运行后为作业分配的资源。 资源管理器仅报告当前使用情况,因此在完成后将其清零。

如果我在事后无法获得它们,有没有办法让 Spark Job 在最后输出/存储时积累统计数据?

尝试使用 Spark 历史记录服务器:

事后查看

只要应用程序的事件日志存在,仍然可以通过 Spark 的历史记录服务器构造应用程序的 UI。您可以通过执行以下命令来启动历史记录服务器:

./sbin/start-history-server.sh

默认情况下,这会在http://<server-url>:18080创建一个 Web 界面,列出不完整和已完成的应用程序和尝试。

使用文件系统提供程序类(请参阅下面的 spark.history.provider)时,必须在 spark.history.fs.logDirectory 配置选项中提供基本日志记录目录,并且应包含每个子目录表示应用程序的事件日志。

Spark 作业本身必须配置为记录事件,并将它们记录到同一共享的可写目录中。例如,如果服务器配置了 hdfs://namenode/shared/spark-logs 的日志目录,则客户端选项将为:

spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode/shared/spark-logs

相关内容

  • 没有找到相关文章

最新更新