关于hive查询与MapReduce并行计算

         众所周知,hive的查询是将select语句转换为底层MapReduce,然后并行化的对hive中的数据进行查询,以前的时候不觉的怎么样,直到最近遇到对比清空。不多说,上图:

        1.在普通的oracle数据库中用navicat客户端对两个表进行关联查询,中间用到了trim对两个表中的字段进行处理,结果查询时间达到了80+ s

关于hive查询与MapReduce并行计算

联合查询导出数据时更是用了我半个多小时都没完成。

所以经考虑把原表导到了hive上面,然后利用hive的mapreduce进行查询;

查询时返回两条语句用了2个map无reduce过程,用时8.23s

关于hive查询与MapReduce并行计算

对整个表进行count()计算时,运行了2个map,1个reduce用时96.85s

关于hive查询与MapReduce并行计算