我有一个大的TSV数据文件,其中包含事实表及其维度表。我想知道是否可以通过Spark将单个文件划分/分区为不同的"表",然后执行连接来规范它们?
任何给我指引正确方向的帮助都会很棒。
在baseRDD上应用filter以获得factRDD&维度RDD,然后可以对它们进行连接。
val baseRDD = sc.textFile("...")
val factRDD = baseRDD.filter(func1)
val dimensionsRDD = baseRD.filter(func2)
factRDD.join(dimentionsRDD)