我想知道mapreduce1和mapreduce2之间的详细区别。YARN的加入实际上为Hadoop增加了什么?我是一个想学习ApacheHadoop的初学者。有人能建议从哪里开始吗。Hadoop的集群设置是什么。谢谢你的帮助。
使用Hadoop2,Apache将映射/减少过程的管理与集群的资源管理(YARN=新的资源管理器)分离。这种分离允许一个专业化有两件事,即YARN是一个比我们在MR1中更好的资源管理器。它还实现了多功能性-资源管理器可以支持额外的范式,而不仅仅是映射/减少,事实上,我们看到了YARN可以管理的很多东西,比如Tez、Hama、Storm,甚至HBase
您可以查看HortonWorks YARN页面,以此作为了解YARN是什么以及它在中的作用的良好起点
MR1体系结构,集群由名为JobTracker的服务管理。TaskTracker服务存在于每个节点上,并将代表作业启动任务。JobTracker将提供有关已完成作业的信息。
MR2架构,旧的MR1框架被重写为在YARN之上提交的应用程序中运行。此应用程序命名为MR2,或MapReduce版本2。下面是熟悉的MapReduce执行,只是每个作业现在都通过自己的ApplicationMaster来控制自己的命运,负责执行流程(如调度任务、处理推测性执行和失败等)
参考:-http://blog.cloudera.com/blog/2013/11/migrating-to-mapreduce-2-on-yarn-for-operators/