小贝子编程

为什么我们不能在Hadoop中计算作业执行时间？

我的问题与Straggler问题有关。在排序中，这是一种算法，我们可以知道它的复杂性，并计算在一组恒定数据上执行时的运行时间。

为什么我们不能在Hadoop中获取作业执行时间？

如果我们能够获得作业执行时间或任务执行时间，我们就可以快速地知道掉队的任务，而不需要算法来知道哪个任务是掉队的。

作业执行时间或任务执行时间将在作业跟踪器的web UI中可用。希望这就是您想要的。web UI将在您的作业跟踪器的50030端口中可用。如果是基于Yarn的设置，则url将为http://：8088

在运行作业之前，不应该估计作业需要花费多少时间。运行mapreduce作业后，您可以估计所花费的时间。Mapreduce始终取决于您的集群容量——RAM大小、CPU核心和网络带宽——以及您为任务设置的Reducer数量。

您只能根据您的RAM大小除以输入拆分来进行假设。

相关内容