小贝子编程

如何为具有True、False和Null值的布尔字段创建分层样本

本文关键字：布尔字段创建样本分层 Null True False python-3.x pyspark sample
更新时间 : 2023-09-19
英文 : How to create a stratified sample for a boolean field with True, False and Null values?

我有一个带有布尔字段的DataFrame。

df = spark.createDataFrame([
[True],   
[False],   
[None],
[True],   
[False],
[None]
]).toDF("match")

我想创建一个具有相等True、False和Null值的分层示例(PySpark(。

如何在我的样本中也获得Null值(不接受None: 0.3(

sampled = df.sampleBy("match", fractions={True: 0.3, False: 0.3})

根据sampleBy方法的源代码，参数fractions是Map[T, Double]，对于带有Spark的MapType列，不允许有空键(请参阅文档(

def sampleBy[T](col: String, fractions: Map[T, Double], seed: Long): DataFrame = {
sampleBy(Column(col), fractions, seed)
}

一种可能的解决方案是添加一个标志，将False、True和NULL转换为0、1和2，然后基于该标志执行sampleBy，例如：

from pyspark.sql.functions import expr
df_sample = df.withColumn('flag', expr("coalesce(int(match), 2)")) 
.sampleBy("flag", {0:0.3, 1:0.3, 2:0.3}) 
.drop("flag")

如何为具有True、False和Null值的布尔字段创建分层样本

相关内容

最新更新

热门标签：