可能是一个愚蠢的问题,但我不明白。我正在开发一个带有Python3.6,Spark 2.4的Jupyter Notebook,由IBM Watson Studio托管。
我有一个简单的csv文件:
num,label
0,0
1,0
2,0
3,0
为了阅读它,我使用以下命令:
labels = spark.read.csv(url, sep=',', header=True)
但是,如果我使用labels.head()
检查labels
是否正确,我会得到Row(PAR1Љ��L�Q�� ='x08x00]')
我错过了什么?
这看起来像是由于编码问题
使用选项中提供的编码尝试此操作,alo 尝试使用 UTF-8
labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")