我使用的是Spark 1.4.1
版本。我正在尝试将分区的配置单元表加载到DataFrame中,其中配置单元表按year_week
编号进行分区,在这种情况下,我可能有104个分区。
但我可以看到DataFrame正在将数据加载到200个分区中,我知道这是由于默认情况下spark.sql.shuffle.partitions
设置为200。
我想知道是否有什么好的方法可以将我的配置单元表加载到具有104个分区的Spark Dataframe,并确保在Dataframe加载时间内按year_week
编号对Dataframe进行分区。
我期望的原因是,我将使用巨大的卷表进行少量连接,其中所有表都按year_week
编号进行分区。因此,将数据帧按year_week
编号进行分区并相应地加载,将节省我用year_week
编号重新分区的大量时间。
如果你对我有任何建议,请告诉我。
谢谢。
使用hiveContext.sql("Select * from tableName where pt='2012.07.28.10'")
其中,pt=partitionKey,在您的情况下为year_week以及与之对应的值。