impala 连接查询优化策略知识(转载并我非原创,如有侵权,通知我立马删除)

impala 下连接查询优化策略思想

知识点:impala采用分布式查询hdfs文件系统上的parquet文件格式数据时,impala集群利用分布式查询技术,在多表连接的查询过程中难免有网络数据传输现象,这是有开销的好的查询策略会使得网络查询数据开销相对小,避免初始化数据集处理条目过多问题

impala 连接查询优化策略知识(转载并我非原创,如有侵权,通知我立马删除)

impala 连接查询优化策略知识(转载并我非原创,如有侵权,通知我立马删除)

为了确认表的连接策略,我们可以对一个特定的查询执行 EXPLAIN执行计划语句。如果通过基准测试我们可以确认一种连接方式比另一种连接方式效率更高,也可以通过Hint的方式手动显式明确指定需要的连接方式策略。 

最左边的连接表是本地数据查询没有网络开销(因此最好是数据量大的表),右侧最好是
放小数据量表,因为右侧连接表查询的结果集数据是有网络传输开销并连结的,所以连接查询的
第二张表往后应该  遵循着  tiny small medium的数据量连接原则而连接查询的左侧第一张表
                                         应该是数据量最大的表,因为第一张表优先
                                        使用本地数据获取查询技术(这样的好处是大数据量结果集尽量避免大结果集数据有网络传输开销,优先采用数据本地本节点读取策略)