具体来说,假设我们有一个文件夹,其中包含 10k 个制表符分隔的 csv 文件,具有以下属性格式(每个 csv 文件约为 10GB):
id name address city...
1 Matt add1 LA...
2 Will add2 LA...
3 Lucy add3 SF...
...
我们有一个基于上面"名称"的查找表
name gender
Matt M
Lucy F
...
现在,我们有兴趣将每个csv文件的前100,000行输出为以下格式:
id name gender
1 Matt M
...
我们可以使用 pyspark 来有效地处理这个问题吗?
如何并行处理这些 10k csv 文件?
你可以在python
中做到这一点来利用文件的1000首行:
top1000 = sc.parallelize("YourFile.csv").map(lambda line : line.split("CsvSeparator")).take(1000)