小贝子编程

验证spark数据帧中的列名和数据类型

我想在python中使用pyspark读取.csv文件，但我只想为每列提供类型，并使用头(来自.csv文件(作为列名(而不是架构中的名称(。有人知道怎么做吗？

在Spark中定义模式时，总是必须给列一个名称。但您可以将选项inferSchema传递到spark.read.csv，这样Spark将自动获取列名并推断数据类型

最新更新