Hadoop MapReduce映射程序任务从HDFS或S3读取输入文件所花费的时间



我正在运行Hadoop MapReduce作业,从HDFS或AmazonS3获取输入文件。我想知道映射器任务从HDFS或S3读取文件到映射器需要多长时间。我想知道读取数据的时间,不包括映射器处理这些数据的时间。我正在寻找的结果是某个映射器任务的MB/秒,这表明映射器从HDFS或S3读取的速度有多快。这有点像I/O性能。

谢谢。

也许您可以使用单元映射器,并将减少器的数量设置为零。然后,在模拟中唯一要做的就是I/O,不会有排序和混洗。或者,如果你特别想专注于阅读,那么你可以用一个不写任何输出的函数来替换单元映射器。接下来,我将设置mapred.jvm.reuse=-1,以消除jvm开销。这并不完美,但这可能是最简单的快速想法。如果你想准确地做到这一点,我会考虑实现你自己的hadoop计数器,但目前我还没有这方面的经验。

相关内容

  • 没有找到相关文章

最新更新