如何在pyspark数据框架中读取csv文件时读取选定的列?



我试图在读取csv文件时读取选定的列。假设csv文件有10列,但我只想读5列。有什么办法可以做到吗?

Pandas我们可以使用usecols,但是pyspark中也有可用的选项吗?

熊猫:

df=pd.read_csv(file_path,usecols=[1,2],index_col=0)

Pyspark:

?

如果要读取前5列,可以在读取整个CSV文件后选择前5列:

df = spark.read.csv(file_path, header=True)
df2 = df.select(df.columns[:5])

相关内容

  • 没有找到相关文章

最新更新