在原来的MapReduce Paper中,说控制器控制MapReduce作业流。
但是有一些论文将"控制器"用于更具体的任务,如收集每个映射器的信息并从结果中控制不同的分区。
这看起来不像"MapReduce"的等效物。但多篇论文提到了相同的概念。所以…在hadoop中它的等价物是什么?
这是论文原文:http://static.googleusercontent.com/media/research.google.com/en/us/archive/mapreduce-osdi04.pdf
"controller"这个词在论文中只有一次使用。谷歌有自己的MapReduce实现,我不确定除了谷歌的工作人员之外,还有谁对他们的实现了解得更多。
另一方面,Hadoop是MapReduce的开源实现。Hadoop有两个部分。- <
- 存储/gh>
Hadoop中的存储系统称为HDFS (Hadoop Distributed File system)。Hadoop中的处理范式是MapReduce。Hadoop采用主/从架构。对于HDFS,有一个主节点(NameNode)和一个从节点(DataTrackers),对于MapReduce,有一个主节点(JobTracker)和一个从节点(TaskTracker)。
回到你的问题,如果有什么具有"控制"的角色,那么它应该是master(用于HDFS/storage的NameNode和用于MapReduce/processing的JobTracker)。