Spark:将缺失值替换为另一列中的值



>假设您有一个包含一些空值的 Spark 数据帧,并且您希望将一列的值替换为另一列的值(如果存在(。在 Python/Pandas 中,你可以使用 fillna(( 函数很好地做到这一点:

df = spark.createDataFrame([('a', 'b', 'c'),(None,'e', 'f'),(None,None,'i')], ['c1','c2','c3'])
DF = df.toPandas()
DF['c1'].fillna(DF['c2']).fillna(DF['c3']) 

如何使用 Pyspark 完成此操作?

你需要使用合并函数:

cDf = spark.createDataFrame([(None, None), (1, None), (None, 2)], ("a", "b"))
cDF.show()
# +----+----+
# |   a|   b|
# +----+----+
# |null|null|
# |   1|null|
# |null|   2|
# +----+----+
cDf.select(coalesce(cDf["a"], cDf["b"])).show()
# +--------------+
# |coalesce(a, b)|
# +--------------+
# |          null|
# |             1|
# |             2|
# +--------------+
cDf.select('*', coalesce(cDf["a"], lit(0.0))).show()
# +----+----+----------------+
# |   a|   b|coalesce(a, 0.0)|
# +----+----+----------------+
# |null|null|             0.0|
# |   1|null|             1.0|
# |null|   2|             0.0|
# +----+----+----------------+

您还可以对多个列应用coalesce

cDf.select(coalesce(cDf["a"], cDf["b"], lit(0))).show()
# ...

此示例取自 pyspark.sql API 文档。

相关内容

  • 没有找到相关文章

最新更新