提供 Spark.csv 方法的名称列表



我目前正在尝试读取存储在 S3 中的 csv。CSV 不包含标题行

对于 Spark 2.0.0 或更高版本,

我尝试将其阅读为:

df = spark.read.csv("path_to_csv")

现在这给了我列名称为:

_c0, _c1 , _c2 , ...

有没有办法在上面的函数中提供列名?在熊猫中,我可以使用参数name=['col1','col2',...]。这里可能类似的事情吗?

PS :我最初的想法是将其读取为CSV,然后对列进行后处理,因为spark.read.csv方法似乎没有任何论据在这里有所帮助。

你可以试试这个

from pyspark.sql.types import StructType, StructField, StringType

您可以创建自己的架构

schema = StructType([StructField("X", StringType(), True), StructField("Y", StringType(), True)])

df = spark.read.csv("path to csv",header=False,schema=schema)

最新更新