Hadoop MapReduce映射程序任务从HDFS或S3读取输入文件的时间

问题描述：

我正在运行Hadoop MapReduce作业，从HDFS或Amazon S3获取输入文件。我想知道是否有可能知道映射器任务从HDFS或S3读取文件到映射器需要多长时间。我想知道读取数据的时间，不包括这些数据的映射器处理时间。我正在寻找的结果对于特定的映射器任务而言就像是MB /秒，这表明映射器可以从HDFS或S3读取的速度有多快。这就像I/O性能。Hadoop MapReduce映射程序任务从HDFS或S3读取输入文件的时间

谢谢。

答

也许你可以使用一个单位映射器并将减速器的数量设置为零。然后，模拟中唯一完成的就是I/O，不会进行排序和洗牌。或者，如果您特别想专注于阅读，则可以用不写任何输出的函数替换单位映射器。接下来我会设置mapred.jvm.reuse=-1，去除jvm开销。这不是完美的，但它可能是一个快速创意的最简单方法。如果你想这样做，我会考虑看看你自己的hadoop计数器，但目前我没有这方面的经验。

Hadoop MapReduce映射程序任务从HDFS或S3读取输入文件的时间

相关推荐