从Spark启用兽人索引的选项是什么?
df
.write()
.option("mode", "DROPMALFORMED")
.option("compression", "snappy")
.mode("overwrite")
.format("orc")
.option("index", "user_id")
.save(...);
我正在编造.option("index", uid)
,我必须在那里放什么来索引兽人的"user_id"列。
你试过吗:.partitionBy("user_id")
?
df
.write()
.option("mode", "DROPMALFORMED")
.option("compression", "snappy")
.mode("overwrite")
.format("orc")
.partitionBy("user_id")
.save(...)
根据关于将ORC支持引入Apache Spark的原始博客文章,在Spark上下文中有一个配置旋钮可以打开以启用ORC索引。
# enable filters in ORC
sqlContext.setConf("spark.sql.orc.filterPushdown", "true")
参考: https://databricks.com/blog/2015/07/16/joint-blog-post-bringing-orc-support-into-apache-spark.html