PySpark: java.io.EOFException



我们今天开始收到这个通用

由:org.apache.spark.SparkException引起:由于阶段失败,作业中止:java.io.EOFException

看到一些文章谈论这是来自大文件、缺少库或内存限制。

https://datascience.stackexchange.com/questions/40130/pyspark-java-io-eofexception

PySpark在使用boto3 读取大文件时抛出java.io.EOFException

对我们来说,它最终是一个空的.seq文件,由我们的一个ETL工具编写。删除该无效文件为我们解决了问题。

最新更新