我试图在读取csv文件时读取选定的列。假设csv文件有10列,但我只想读5列。有什么办法可以做到吗?
Pandas我们可以使用usecols
,但是pyspark中也有可用的选项吗?
熊猫:
df=pd.read_csv(file_path,usecols=[1,2],index_col=0)
Pyspark:
?
如果要读取前5列,可以在读取整个CSV文件后选择前5列:
df = spark.read.csv(file_path, header=True)
df2 = df.select(df.columns[:5])