Hadoop YARN vs mapreduce



我已经在我的机器中安装了Hadoop-2.6.0并启动了所有服务。

当我与旧版本进行比较时,这个版本没有启动作业跟踪器和任务跟踪器作业,而是启动节点管理器和资源管理器。

数量:-

  1. 我相信这个版本的Hadoop使用YARN来运行作业。我不能再运行地图缩减作业了吗
  2. 我应该写一份适合YARN资源经理和应用程序经理的工作吗
  3. 有没有我可以提交的Python作业示例
  1. 我相信这个版本的Hadoop使用YARN来运行作业。我不能再运行地图缩减作业了吗

运行MapReduce作业仍然可以。YARN是Hadoop集群的集群计算内部的一个重新架构,但该重新架构保持了与经典Hadoop 1.x MapReduce的公共API兼容性。Apache Hadoop NextGen MapReduce(YARN)上的Apache Hadoop文档更详细地讨论了该体系结构。文件末尾有一句相关的话:

MRV2与以前的稳定版本(hadoop-1.x)保持了API的兼容性。这意味着所有Map-Reduct作业都应该在MRV2上运行,只需重新编译。


  1. 我应该写一份适合YARN资源经理和应用程序经理的工作吗

如果您已经习惯于编写MapReduce作业或更高级别的抽象,如Pig脚本和Hive查询,那么您不需要更改作为最终用户正在做的任何事情。上述API兼容性意味着所有这些都可以继续正常工作。欢迎您编写专门针对YARN框架的自定义分布式应用程序,但如果您只想坚持Hadoop1.x风格的数据处理工作,这是不需要的更高级的用法。ApacheHadoop文档包含一个关于编写YARN应用程序的页面,如果您有兴趣对此进行探索的话。


  1. 有没有我可以提交的Python作业示例

我建议大家看一下Hadoop流的Apache Hadoop文档。Hadoop Streaming允许您简单地基于读取stdin和写入stdout来编写MapReduce作业。这是一个非常通用的pardigm,所以这意味着你可以用几乎任何你想要的东西来编码,包括Python。

总的来说,您会从ApacheHadoop文档站点中受益。那里有很多有用的信息。

最新更新