小贝子编程

如何使用 spark dataframe(python/pyspark) 从 csv 文件中跳过不需要的标头

本文关键字：文件不需要 csv dataframe spark 何使用 python pyspark pyspark apache-spark-sql
更新时间 : 2023-09-10
英文 : How to skip unwanted headers from csv file using spark dataframe(python/pyspark)

如何从csv中跳过第一行并将第二行视为pyspark数据帧中的标头：

prod,daily,impress
id,name,country
01,manish,USA
02,jhon,UK
03,willson,Africa

如何跳过第一行(产品每日印象(并使用 Spark 数据帧将(ID 名称国家/地区(视为标头。

除了

硬编码之外，我想不出如何将第二行作为标题。但是，可以跳过 CSV 数据帧中的前两行(或任何 # 行(。

>>> df = spark.read.csv("sample_csv",sep=',').rdd.zipWithIndex().filter(lambda x: x[1] > 1).map(lambda x: x[0]).toDF(['id','name','country'])
#x[1] > 1 actually skips first two lines 0 & 1
>>> df.show()
+---+-------+-------+
| id|   name|country|
+---+-------+-------+
| 01| manish|    USA|
| 02|   jhon|     UK|
| 03|willson| Africa|
+---+-------+-------+

如何使用 spark dataframe(python/pyspark) 从 csv 文件中跳过不需要的标头

相关内容

最新更新

热门标签：