pyspark在从目录中读取parquet文件时不保存



我试图从一个目录加载大量parquet文件到pyspark,然后将它们保存到另一个目录。

我的代码如下:
df = spark.read.parquet('input_folder') 
.write 
.parquet('output_folder')

我得到了一个巨大的错误列表,从:

Exception has occurred: Py4JJavaError调用时发生错误o30.parquet .

当我尝试使用一个文件时-一切都很好:

df = spark.read.parquet('input_folder/file1.parquet') 
.write 
.parquet('output_folder')

计数记录工作正常:

df = spark.read.parquet('input_folder') 
.count()

原因是什么?

原因是第一个拼花文件为空。希望对大家有所帮助。

最新更新