提供 Spark.csv 方法的名称列表

我目前正在尝试读取存储在 S3 中的 csv。CSV 不包含标题行。

对于 Spark 2.0.0 或更高版本，

我尝试将其阅读为：

df = spark.read.csv("path_to_csv")

现在这给了我列名称为：

_c0, _c1 , _c2 , ...

有没有办法在上面的函数中提供列名？在熊猫中，我可以使用参数name=['col1','col2',...]。这里可能类似的事情吗？

PS ：我最初的想法是将其读取为CSV，然后对列进行后处理，因为spark.read.csv方法似乎没有任何论据在这里有所帮助。

你可以试试这个

from pyspark.sql.types import StructType, StructField, StringType

您可以创建自己的架构

schema = StructType([StructField("X", StringType(), True), StructField("Y", StringType(), True)])

df = spark.read.csv("path to csv",header=False,schema=schema)

相关内容

最新更新

热门标签：