通过使用YARN,我们可以运行非mapreduce应用程序。
但它是如何运作的呢?
在HDFS中,所有内容都存储在块中。对于每个块,将创建一个映射器任务来处理整个数据集。
但是非mapreduce应用程序,它将如何处理不同数据节点中的数据集?
请解释一下。
不要将Map reduce范式与Spark等其他应用程序混淆。Spark可以在Yarn下运行,但不使用映射器或减速器。
相反,它使用执行器,这些执行器知道数据本地化,就像mapreduce一样
spark驱动程序将在数据节点上启动执行程序,并在执行时尽量记住数据的位置
也不要将Map Reduce默认行为与标准行为混淆。您不需要每个输入拆分有一个映射器。
HDFS和Map Reduce也是两种不同的东西。HDFS只是存储层,而Map Reduce处理处理。