我试图从一个目录加载大量parquet文件到pyspark,然后将它们保存到另一个目录。
我的代码如下:df = spark.read.parquet('input_folder')
.write
.parquet('output_folder')
我得到了一个巨大的错误列表,从:
Exception has occurred: Py4JJavaError调用时发生错误o30.parquet .
当我尝试使用一个文件时-一切都很好:
df = spark.read.parquet('input_folder/file1.parquet')
.write
.parquet('output_folder')
计数记录工作正常:
df = spark.read.parquet('input_folder')
.count()
原因是什么?
原因是第一个拼花文件为空。希望对大家有所帮助。