我最近使用新的yarn框架安装了一个2节点的hadoop 2.2.0。
作业运行,所有看起来都在运行,但我想知道是否有一种方法可以真正验证两个节点都在运行作业,而不仅仅是一个节点(我似乎在hadoop jar ...
命令的输出中找不到任何关于这件事的相关信息,其中显示了mapreduce完成统计信息。
我还想知道如何验证两个节点都在为DFS存储信息。我运行了df
,似乎只有一个节点实际存储信息(我有hadoop dfs -put
大文本文件)。
简而言之:
- 如何判断哪些节点实际运行了特定作业
- 我如何判断哪些数据节点实际包含哪些信息(在阅读了一些教程后,我使用replication=2来确保两个节点共享我在DFS上放置的信息负载)
我很难在谷歌上搜索到这一点,因为Hadoop不像我习惯谷歌的其他主题那样被覆盖,而且我最终遇到的大多数线程都没有答案或无关。
感谢
-
您需要检查Job Tracker Web UI(端口50030)-从这里您可以列出活动的Task Tracker的数量以及它们都运行过的映射任务的数量(已完成、失败+错误)。
-
您可以使用命令行工具列出块及其位置:
hadoop fsck <path> -files -blocks -locations
有关fsck cmd的更多信息,请参阅此链接:http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-common/CommandsManual.html#fsck