我使用hive 2.3.7和spark-2.0.0作为执行引擎。我想知道如何打印物理计划,看看caclcite等连接算法选择在查询中执行。
您可以使用explain
。
在Pyspark:
df = df1.join(df2, 'id')
df.explain()
在Spark SQL/Hive QL:中
EXPLAIN SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;
在上查看更多详细信息
http://spark.apache.org/docs/latest/sql-ref-syntax-qry-explain.html
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+解释