关于hive查询与MapReduce并行计算
众所周知,hive的查询是将select语句转换为底层MapReduce,然后并行化的对hive中的数据进行查询,以前的时候不觉的怎么样,直到最近遇到对比清空。不多说,上图:
1.在普通的oracle数据库中用navicat客户端对两个表进行关联查询,中间用到了trim对两个表中的字段进行处理,结果查询时间达到了80+ s
联合查询导出数据时更是用了我半个多小时都没完成。
所以经考虑把原表导到了hive上面,然后利用hive的mapreduce进行查询;
查询时返回两条语句用了2个map无reduce过程,用时8.23s
对整个表进行count()计算时,运行了2个map,1个reduce用时96.85s