关于hive查询与MapReduce并行计算

众所周知，hive的查询是将select语句转换为底层MapReduce，然后并行化的对hive中的数据进行查询，以前的时候不觉的怎么样，直到最近遇到对比清空。不多说，上图：

1.在普通的oracle数据库中用navicat客户端对两个表进行关联查询，中间用到了trim对两个表中的字段进行处理，结果查询时间达到了80+ s

联合查询导出数据时更是用了我半个多小时都没完成。

所以经考虑把原表导到了hive上面，然后利用hive的mapreduce进行查询；

查询时返回两条语句用了2个map无reduce过程，用时8.23s

关于hive查询与MapReduce并行计算

对整个表进行count()计算时，运行了2个map，1个reduce用时96.85s

关于hive查询与MapReduce并行计算