小贝子编程

使用 pySpark 将零件文件从 hdfs 读取到数据框中

>我在hdfs位置存储了多个文件，如下所示

用户/项目/202005/部件-01798

/用户/项目/202005/部件-01799

有 2000 个这样的零件文件。每个文件的格式都是

{'Name':'abc','Age':28,'Marks':[20,25,30]} 
{'Name':...}

等等.我有 2 个问题

1) How to check whether these are multiple files or multiple partitions of the same file
2) How to read these in a data frame using pyspark

由于这些文件位于一个目录中，并且这些文件被命名为 part-xxxxx 文件，因此您可以放心地假设它们是同一数据集的多个部分文件。如果这些是分区，它们应该像这样保存/user/project/date=202005/*
您可以指定目录"/用户/项目/202005"作为 Spark 的输入，如下所示，假设这些是 csv 文件

df = spark.read.csv('/user/project/202005/*',header=True, inferSchema=True)

相关内容