我的Spark Yarn群集被许多用户使用,Spark历史服务器中有许多作业。通过Spark History Server找到了大量的时间来找到我的工作。我找不到任何选项可以在此处使用Spark Wiki上的用户ID过滤作业。
我想知道,是否有任何方法可以选择特定用户提交的作业列表?还是在特定时间窗口?谢谢。
如果您使用的是 YARN 您可以依靠YARN列表和过滤您的应用程序
yarn application -list | grep -i spark | grep hdpuser
应列出HDPUSER的Spark应用程序。另外,在纱线Web UI上,您可以看到所有工作,并且可以按照不同的条件过滤(纱线命令)。
使用REST API,在路径/applications/[app-id]/Environment 上,您的环境详细信息为您的Spark应用程序(仅适用于2.2 Spark版本)。使用属性 user.name ,它的值应该是启动Spark作业的用户名。
在端口4040上的Spark Web UI上列出的环境属性查看所有可用属性。