小贝子编程

Hadoop MapReduce映射程序任务从HDFS或S3读取输入文件所花费的时间

本文关键字：文件时间读取任务映射程序 MapReduce HDFS S3 Hadoop hadoop mapreduce mapper
更新时间 : 2023-08-31
英文 : Time spent by a Hadoop MapReduce mapper task to read input files from HDFS or S3

我正在运行Hadoop MapReduce作业，从HDFS或AmazonS3获取输入文件。我想知道映射器任务从HDFS或S3读取文件到映射器需要多长时间。我想知道读取数据的时间，不包括映射器处理这些数据的时间。我正在寻找的结果是某个映射器任务的MB/秒，这表明映射器从HDFS或S3读取的速度有多快。这有点像I/O性能。

谢谢。

也许您可以使用单元映射器，并将减少器的数量设置为零。然后，在模拟中唯一要做的就是I/O，不会有排序和混洗。或者，如果你特别想专注于阅读，那么你可以用一个不写任何输出的函数来替换单元映射器。接下来，我将设置mapred.jvm.reuse=-1，以消除jvm开销。这并不完美，但这可能是最简单的快速想法。如果你想准确地做到这一点，我会考虑实现你自己的hadoop计数器，但目前我还没有这方面的经验。

Hadoop MapReduce映射程序任务从HDFS或S3读取输入文件所花费的时间

相关内容

最新更新

热门标签：