将配置单元分区表加载到Spark Dataframe



我使用的是Spark 1.4.1版本。我正在尝试将分区的配置单元表加载到DataFrame中,其中配置单元表按year_week编号进行分区,在这种情况下,我可能有104个分区。

但我可以看到DataFrame正在将数据加载到200个分区中,我知道这是由于默认情况下spark.sql.shuffle.partitions设置为200。

我想知道是否有什么好的方法可以将我的配置单元表加载到具有104个分区的Spark Dataframe,并确保在Dataframe加载时间内按year_week编号对Dataframe进行分区。

我期望的原因是,我将使用巨大的卷表进行少量连接,其中所有表都按year_week编号进行分区。因此,将数据帧按year_week编号进行分区并相应地加载,将节省我用year_week编号重新分区的大量时间。

如果你对我有任何建议,请告诉我。

谢谢。

使用hiveContext.sql("Select * from tableName where pt='2012.07.28.10'")

其中,pt=partitionKey,在您的情况下为year_week以及与之对应的值。

相关内容

  • 没有找到相关文章

最新更新