PySpark: StructField(.., .., False)总是返回' nullable=true '而不是'



我是PySpark的新手,我面临一个奇怪的问题。我试图在加载CSV数据集时将一些列设置为非空。我可以用一个非常小的数据集(test.csv)重现我的案例:

col1,col2,col3
11,12,13
21,22,23
31,32,33
41,42,43
51,,53

在第5行第2列有一个空值我不想在DF中得到那一行。我将所有字段设置为非空(nullable=false),但我得到一个模式,所有三列都有nullable=true。即使我将所有三列设置为非空,也会发生这种情况!我使用的是最新版本的Spark, 2.0.1。

代码如下:

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
spark = SparkSession 
.builder 
.appName("Python Spark SQL basic example") 
.config("spark.some.config.option", "some-value") 
.getOrCreate()
struct = StructType([   StructField("col1", StringType(), False), 
StructField("col2", StringType(), False), 
StructField("col3", StringType(), False) 
])
df = spark.read.load("test.csv", schema=struct, format="csv", header="true")

df.printSchema()返回:

root
|-- col1: string (nullable = true)
|-- col2: string (nullable = true)
|-- col3: string (nullable = true)

df.show()返回:

+----+----+----+
|col1|col2|col3|
+----+----+----+
|  11|  12|  13|
|  21|  22|  23|
|  31|  32|  33|
|  41|  42|  43|
|  51|null|  53|
+----+----+----+

而我期望这个:

root
|-- col1: string (nullable = false)
|-- col2: string (nullable = false)
|-- col3: string (nullable = false)
+----+----+----+
|col1|col2|col3|
+----+----+----+
|  11|  12|  13|
|  21|  22|  23|
|  31|  32|  33|
|  41|  42|  43|
+----+----+----+

虽然Spark的行为(从False切换到True)令人困惑,但这里没有根本错误。nullable参数不是约束,而是源和类型语义的反映,从而实现某些类型的优化

您声明希望避免数据中的空值。为此,您应该使用na.drop方法。

df.na.drop()

关于处理null的其他方法,请查看DataFrameNaFunctions(使用DataFrame.na属性暴露)文档。

CSV格式没有提供任何工具来允许你指定数据约束,所以根据定义,读者不能假设输入不是空的,你的数据确实包含空。

相关内容

  • 没有找到相关文章

最新更新