我目前正在尝试读取存储在 S3 中的 csv。CSV 不包含标题行。
对于 Spark 2.0.0 或更高版本,
我尝试将其阅读为:
df = spark.read.csv("path_to_csv")
现在这给了我列名称为:
_c0, _c1 , _c2 , ...
有没有办法在上面的函数中提供列名?在熊猫中,我可以使用参数name=['col1','col2',...]
。这里可能类似的事情吗?
PS :我最初的想法是将其读取为CSV,然后对列进行后处理,因为spark.read.csv方法似乎没有任何论据在这里有所帮助。
你可以试试这个
from pyspark.sql.types import StructType, StructField, StringType
您可以创建自己的架构
schema = StructType([StructField("X", StringType(), True), StructField("Y", StringType(), True)])
df = spark.read.csv("path to csv",header=False,schema=schema)