为什么 spark.sql.orc.filterPushdown
spark中的默认值false?
将spark.sql.orc.filterPushdown
设置为true
是否会产生某些性能开销,或者在Spark的ORC读取功能中有某种限制?
可能是因为与ORC旧格式的Spark集成不是很好,在某些情况下会引起问题。这些问题中的大多数似乎都以兽人的新格式固定(具有更好的矢量化)和Spark 2。
。 https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
https://issues.apache.org/jira/browse/spark-14962
https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-ismuse-sissues.html