如何从csv中跳过第一行并将第二行视为pyspark数据帧中的标头:
prod,daily,impress
id,name,country
01,manish,USA
02,jhon,UK
03,willson,Africa
如何跳过第一行(产品每日印象(并使用 Spark 数据帧将(ID 名称国家/地区(视为标头。
除了
硬编码之外,我想不出如何将第二行作为标题。但是,可以跳过 CSV 数据帧中的前两行(或任何 # 行(。
>>> df = spark.read.csv("sample_csv",sep=',').rdd.zipWithIndex().filter(lambda x: x[1] > 1).map(lambda x: x[0]).toDF(['id','name','country'])
#x[1] > 1 actually skips first two lines 0 & 1
>>> df.show()
+---+-------+-------+
| id| name|country|
+---+-------+-------+
| 01| manish| USA|
| 02| jhon| UK|
| 03|willson| Africa|
+---+-------+-------+