使用 pySpark 将零件文件从 hdfs 读取到数据框中



>我在hdfs位置存储了多个文件,如下所示

/

用户/项目/202005/部件-01798

/用户/项目/202005/部件-01799

有 2000 个这样的零件文件。每个文件的格式都是

{'Name':'abc','Age':28,'Marks':[20,25,30]} 
{'Name':...} 

等等.我有 2 个问题

1) How to check whether these are multiple files or multiple partitions of the same file
2) How to read these in a data frame using pyspark
  1. 由于这些文件位于一个目录中,并且这些文件被命名为 part-xxxxx 文件,因此您可以放心地假设它们是同一数据集的多个部分文件。如果这些是分区,它们应该像这样保存/user/project/date=202005/*
  2. 您可以指定目录"/用户/项目/202005"作为 Spark 的输入,如下所示,假设这些是 csv 文件
df = spark.read.csv('/user/project/202005/*',header=True, inferSchema=True)

相关内容

  • 没有找到相关文章

最新更新