我有2个textfiles a和b
我希望将读取文件a到spark接下来,我还必须读取文件b,但取决于键,我必须读取
- 表A
ID列
1 anu2 USHA
2表B
id age
1 232 23
我希望基于第一表1st列作为外键和主键之类的键加载数据,请指导我 -
形成问题的要点,看来您正在尝试加入文本文件。您可以使用DataFrames加入这两个文件。
val table1 = sqlContext.read.format("text").load("/user/chlr/spark_test/table1.csv").map(x => x.getString(0).split(',').head -> x.getString(0).split(',').tail.head ).toDF("id","column")
val table2 = sqlContext.read.format("text").load("/user/chlr/spark_test/table2.csv").map(x => x.getString(0).split(',').head -> x.getString(0).split(',').tail.head ).toDF("id","column")
table1.join(table2, "id").show()
+---+------+------+
| id|column|column|
+---+------+------+
| 1| anu| 23|
| 2| usha| 23|
+---+------+------+