Hadoop:节点的概念及其工作机制



我刚开始研究hadoop(基于2.6.0),但仍然很难全面了解hadoop的物理和逻辑结构。

我找到的所有引用都使用了"节点"一词,比如主/从节点和名称/数据节点,但我找不到任何一个节点对这些"节点"的明确定义。(也许我错过了细节…)

我想知道的是,主/从"节点"是物理机器的术语,而名称/数据"节点"则是管理实际数据的过程的术语吗?

我的第二个问题是,这些节点是如何相互通信的?我所知道的是,他们需要ssh进行通信,但仅此而已。如果我知道他们实际上是如何相互沟通以理解其架构的,那将非常有帮助。

ps。有什么好的在线参考资料可以学习hadoop吗?对我来说,hadoop网站对像我这样的初学者来说太不友好了,我发现到目前为止的博客有时没有信息。请分享一些好的资源!

主/从"节点"是物理机器和名称/数据的术语吗"节点"管理实际数据的过程的术语?

namenode-datanode等是在物理机器上运行的hadoop守护进程服务。所以,如果集群中有运行namenode服务的系统,那么它被称为namenode。单个节点可以运行多个服务,即它可以运行名称节点和数据节点,尽管在生产设置中没有这样做,因为我们不希望运行名称节点服务的机器负担过重。由于您使用的是hadoop2.6,您可能还想了解一下YARN体系结构,以了解作业是如何执行的

这些节点是如何相互通信的?我所知道的是他们需要ssh用于通信,但仅此而已。

看看这个。Datanode使用DatanodeProtocol与Namenode通信。该接口提供发送心跳消息、新数据节点注册、块报告等功能。客户端使用DataTransferProtocol与数据节点通信。该接口提供读取块、写入块、复制块等功能。

有什么好的在线参考资料可以学习hadoop吗?

看看这个和这个——可能与新的体系结构略有不同,但读起来还是很好的。大数据大学有很多初学者课程。