我创建了一个4节点的Hadoop集群。我启动所有数据节点,名称节点资源管理器等。
为了确定我的所有节点是否都在工作,我尝试了以下过程:
第 1 步。当所有节点都处于活动状态
时,我运行我的程序第 2 步。当只有主节点处于活动状态时,我运行我的程序。
两种情况下的完成时间几乎相同。
因此,我想知道是否有任何其他方法可以知道在运行程序时实际使用了多少节点。
在聊天中讨论。该问题是由不正确的Hadoop安装引起的,在这两种情况下,作业都是使用LocalJobRunner在本地启动的。
作为建议:
- 使用 Ambari 安装 Hadoop (http://ambari.apache.org/)
- 将平台更改为 CentOS 6.4+
- 使用 Oracle JDK 7
- 对主机名和防火墙要有耐心
- 熟悉用于运行状况诊断和默认 Hadoop WebUI 的群集命令