计算最终映射中的总行数会减少hadoop中的输出



当前我的数量减少任务设置为job.setNumReduceTasks(100);

所以我的最终输出目录在S3中,看起来像下面的

/output/part-r-00000.gz
/output/part-r-00001.gz
... etc

为了计算所有的行数,我必须手动下载并解压缩所有文件,并遍历每个文件来计算总行数。

在hadoop上下文中的某个地方是否存在总行度量存储?

Map Reduce应用程序日志存储映射和减少任务的计数器。对于所有减速器,如果您查看作业日志(确切地说是计数器(,类似于"减少输出记录"的内容应该会为您提供所需的信息。然而,这是HDP平台,RMUI在作业计数器部分拥有所有信息。

最新更新