Hadoop MR 应用程序中的减速器动态数量



提交作业后,有没有办法设置减少任务的数量?例如,如果我需要根据开始字母收集英语单词,我可以直接将减少任务的数量设置为 26。但是,如果出现我无法预先确定所需减速器数量的情况,是否有任何方法可以满足要求?这里的要求与集群上的节点数量无关,它只取决于正在处理的密钥。例如,化简器的数量是每次满足新键时递增 1。提前感谢您的任何支持。

提交作业后,是否有任何方法可以设置减少任务的数量?

例如,如果我需要根据开始字母收集英语单词,我可以直接将减少任务的数量设置为 26。

即使在上述情况下,您也不需要有 26 个减速器,而只需要 1 个减速器。Hadoop框架为每个键一次又一次地调用reduce函数。MultipleOutputFormat 可用于根据键/值对(第一个字母)将单词写入不同的文件。

作业的化简器数量的标准应该是它正在处理的数据量。另外,请记住,花费最多时间的减速器将决定完成作业的时间。

最新更新