如何从容器内部获取 YARN 容器 ID

我正在 YARN 上运行 Spark 作业，并希望获取 YARN 容器 ID（作为跨一组 Spark 作业生成唯一 ID 的要求的一部分）。我可以看到 Container.getId（）方法来获取 ContainerId，但不知道如何从 YARN 获取对当前正在运行的容器的引用。这可能吗？YARN 容器如何获取自己的信息？

我能得到一些东西的唯一方法是使用日志记录目录。以下内容在火花壳中工作。

import org.apache.hadoop.yarn.api.records.ContainerId
def f(): String = {
  val localLogDir: String = System.getProperty("spark.yarn.app.container.log.dir")
  val containerIdString: String = localLogDir.split("/").last
  val containerIdLong: Long = ContainerId.fromString(containerIdString).getContainerId
  containerIdLong.toHexString
}
val rdd1 = sc.parallelize((1 to 10)).map{ _ => f() }
rdd1.distinct.collect().foreach(println)

下面描述了Spark如何存储容器ID

Spark 隐藏容器 ID 并公开每个应用程序/作业的执行程序 ID因此，如果您打算维护每个 Spark 作业的唯一 ID，我的建议是使用 Spark 为您提供的应用程序 ID，然后您可以添加一些字符串以使您唯一

下面是来自"YarnAllocator.scala"的火花代码

private[yarn] val executorIdToContainer = new HashMap[String， Container]

YARN 将导出此处列出的所有环境变量：https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-api/src/main/java/org/apache/hadoop/yarn/api/ApplicationConstants.java#L117

因此，您应该能够像以下方式访问它：

sys.env.get(ApplicationConstants.Environment.CONTAINER_ID.toString)
// or, equivalently
sys.env.get("CONTAINER_ID")

相关内容

最新更新

热门标签：