我可以将Spark RDD拆分为两个表,然后对它们执行联接吗



我有一个大的TSV数据文件,其中包含事实表及其维度表。我想知道是否可以通过Spark将单个文件划分/分区为不同的"表",然后执行连接来规范它们?

任何给我指引正确方向的帮助都会很棒。

在baseRDD上应用filter以获得factRDD&维度RDD,然后可以对它们进行连接。

val baseRDD = sc.textFile("...")  
val factRDD = baseRDD.filter(func1)  
val dimensionsRDD = baseRD.filter(func2)  
factRDD.join(dimentionsRDD)

相关内容

  • 没有找到相关文章

最新更新