如何使用 spark dataframe(python/pyspark) 从 csv 文件中跳过不需要的标头



如何从csv中跳过第一行并将第二行视为pyspark数据帧中的标头:

prod,daily,impress
id,name,country
01,manish,USA
02,jhon,UK
03,willson,Africa

如何跳过第一行(产品每日印象(并使用 Spark 数据帧将(ID 名称国家/地区(视为标头。

除了

硬编码之外,我想不出如何将第二行作为标题。但是,可以跳过 CSV 数据帧中的前两行(或任何 # 行(。

>>> df = spark.read.csv("sample_csv",sep=',').rdd.zipWithIndex().filter(lambda x: x[1] > 1).map(lambda x: x[0]).toDF(['id','name','country'])
#x[1] > 1 actually skips first two lines 0 & 1
>>> df.show()
+---+-------+-------+
| id|   name|country|
+---+-------+-------+
| 01| manish|    USA|
| 02|   jhon|     UK|
| 03|willson| Africa|
+---+-------+-------+

最新更新