Hadoop MapReduce映射程序任务从HDFS或S3读取输入文件的时间

问题描述:

我正在运行Hadoop MapReduce作业,从HDFS或Amazon S3获取输入文件。我想知道是否有可能知道映射器任务从HDFS或S3读取文件到映射器需要多长时间。我想知道读取数据的时间,不包括这些数据的映射器处理时间。我正在寻找的结果对于特定的映射器任务而言就像是MB /秒,这表明映射器可以从HDFS或S3读取的速度有多快。这就像I/O性能。Hadoop MapReduce映射程序任务从HDFS或S3读取输入文件的时间

谢谢。

也许你可以使用一个单位映射器并将减速器的数量设置为零。然后,模拟中唯一完成的就是I/O,不会进行排序和洗牌。或者,如果您特别想专注于阅读,则可以用不写任何输出的函数替换单位映射器。 接下来我会设置mapred.jvm.reuse=-1,去除jvm开销。这不是完美的,但它可能是一个快速创意的最简单方法。如果你想这样做,我会考虑看看你自己的hadoop计数器,但目前我没有这方面的经验。