如何使用 Spark ORC 索引



从Spark启用兽人索引的选项是什么?

          df
            .write()
            .option("mode", "DROPMALFORMED")
            .option("compression", "snappy")
            .mode("overwrite")
            .format("orc")
            .option("index", "user_id")
            .save(...);

我正在编造.option("index", uid),我必须在那里放什么来索引兽人的"user_id"列。

你试过吗:.partitionBy("user_id")

 df
        .write()
        .option("mode", "DROPMALFORMED")
        .option("compression", "snappy")
        .mode("overwrite")
        .format("orc")
        .partitionBy("user_id")
        .save(...)

根据关于将ORC支持引入Apache Spark的原始博客文章,在Spark上下文中有一个配置旋钮可以打开以启用ORC索引。

# enable filters in ORC
sqlContext.setConf("spark.sql.orc.filterPushdown", "true")

参考: https://databricks.com/blog/2015/07/16/joint-blog-post-bringing-orc-support-into-apache-spark.html

最新更新