如何使用 Spark 进行 map-reduce 流程以选择 N 列,文件夹下所有 csv 文件的前 M 行



具体来说,假设我们有一个文件夹,其中包含 10k 个制表符分隔的 csv 文件,具有以下属性格式(每个 csv 文件约为 10GB):

id  name    address city...
1   Matt    add1    LA...
2   Will    add2    LA...
3   Lucy    add3    SF...
...

我们有一个基于上面"名称"的查找表

name    gender
Matt    M
Lucy    F
...

现在,我们有兴趣将每个csv文件的前100,000行输出为以下格式:

id  name    gender
1   Matt    M
...

我们可以使用 pyspark 来有效地处理这个问题吗?

如何并行处理这些 10k csv 文件?

你可以在python

中做到这一点来利用文件的1000首行:

top1000 = sc.parallelize("YourFile.csv").map(lambda line : line.split("CsvSeparator")).take(1000)

相关内容

  • 没有找到相关文章

最新更新