使用 PySpark 阅读简单的 csv



可能是一个愚蠢的问题,但我不明白。我正在开发一个带有Python3.6,Spark 2.4的Jupyter Notebook,由IBM Watson Studio托管。

我有一个简单的csv文件:

num,label
0,0
1,0
2,0
3,0

为了阅读它,我使用以下命令:

labels = spark.read.csv(url, sep=',', header=True)

但是,如果我使用labels.head()检查labels是否正确,我会得到Row(PAR1Љ��L�Q�� ='x08x00]')

我错过了什么?

这看起来像是由于编码问题

使用选项中提供的编码尝试此操作,alo 尝试使用 UTF-8

labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")

相关内容

最新更新