使用yarn和hadoop 2.2.0进行各种作业统计



我最近使用新的yarn框架安装了一个2节点的hadoop 2.2.0。

作业运行,所有看起来都在运行,但我想知道是否有一种方法可以真正验证两个节点都在运行作业,而不仅仅是一个节点(我似乎在hadoop jar ...命令的输出中找不到任何关于这件事的相关信息,其中显示了mapreduce完成统计信息。

我还想知道如何验证两个节点都在为DFS存储信息。我运行了df,似乎只有一个节点实际存储信息(我有hadoop dfs -put大文本文件)。

简而言之:

  1. 如何判断哪些节点实际运行了特定作业
  2. 我如何判断哪些数据节点实际包含哪些信息(在阅读了一些教程后,我使用replication=2来确保两个节点共享我在DFS上放置的信息负载)

我很难在谷歌上搜索到这一点,因为Hadoop不像我习惯谷歌的其他主题那样被覆盖,而且我最终遇到的大多数线程都没有答案或无关。

感谢

  1. 您需要检查Job Tracker Web UI(端口50030)-从这里您可以列出活动的Task Tracker的数量以及它们都运行过的映射任务的数量(已完成、失败+错误)。

  2. 您可以使用命令行工具列出块及其位置:

    hadoop fsck <path> -files -blocks -locations

    有关fsck cmd的更多信息,请参阅此链接:http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-common/CommandsManual.html#fsck

最新更新