我的问题与Straggler问题有关。在排序中,这是一种算法,我们可以知道它的复杂性,并计算在一组恒定数据上执行时的运行时间。
为什么我们不能在Hadoop中获取作业执行时间?
如果我们能够获得作业执行时间或任务执行时间,我们就可以快速地知道掉队的任务,而不需要算法来知道哪个任务是掉队的。
作业执行时间或任务执行时间将在作业跟踪器的web UI中可用。希望这就是您想要的。web UI将在您的作业跟踪器的50030端口中可用。如果是基于Yarn的设置,则url将为http://:8088
在运行作业之前,不应该估计作业需要花费多少时间。运行mapreduce作业后,您可以估计所花费的时间。Mapreduce始终取决于您的集群容量——RAM大小、CPU核心和网络带宽——以及您为任务设置的Reducer数量。
您只能根据您的RAM大小除以输入拆分来进行假设。