Hadoop独立模式和伪分布式模式下的DataFlow差异



有人能告诉我Hadoop独立模式和伪分布式模式的数据流有什么区别吗。事实上,我正在尝试运行约翰·诺斯塔德提出的矩阵乘法的一个例子。它在hadoop独立模式下运行良好,但在伪分布式模式下无法正常工作。我无法解决这个问题,所以请告诉我hadoop独立模式和伪分布式模式之间的原理区别,这有助于解决所述问题。感谢

Reagrds,

WL

在独立模式下,所有东西(namenode、datanode、tasktracker、jobtracker)都在一台机器上的一个JVM中运行。在伪分布式模式中,所有东西都在自己的JVM中运行,但仍然在一台机器上。就客户端接口而言,应该没有任何区别,但如果在伪分布式模式下序列化要求更严格,我也不会感到惊讶。

我对以上内容的推理是,在伪分布式模式中,必须序列化所有内容才能在JVM之间传递数据。在独立模式下,并不是所有东西都必须是可序列化的(因为所有东西都在一个JVM中,所以您有共享内存),但我不记得编写代码是否利用了这一事实,因为这不是Hadoop的正常用例。

编辑:鉴于您没有看到错误,我认为这听起来像是MapReduce作业编码方式的问题。也许他依赖于减速器之间的共享记忆?如果是这样的话,它可以在独立模式下工作,但不能在伪分布式模式(或者真正的分布式模式)下工作。

相关内容

  • 没有找到相关文章

最新更新