如何替换Pyspark中数据框的所有空值



i在Pyspark中有一个数据框,其中有300多列。在这些列中,有一些具有值null的列。

例如:

Column_1 column_2
null     null
null     null
234      null
125      124
365      187
and so on

当我想做一列_1的总和时,我的结果是无效的,而不是724。

现在,我想用空空间替换数据框架的所有列中的零。因此,当我尝试执行这些列的总和时,我不会得到无效的值,但是我会得到一个数值。

我们如何在pyspark

中实现这一目标

您可以使用 df.na.fill用零替换nulls,例如:

>>> df = spark.createDataFrame([(1,), (2,), (3,), (None,)], ['col'])
>>> df.show()
+----+
| col|
+----+
|   1|
|   2|
|   3|
|null|
+----+
>>> df.na.fill(0).show()
+---+
|col|
+---+
|  1|
|  2|
|  3|
|  0|
+---+

您可以使用fillna()func。

>>> df = spark.createDataFrame([(1,), (2,), (3,), (None,)], ['col'])
>>> df.show()
+----+
| col|
+----+
|   1|
|   2|
|   3|
|null|
+----+
>>> df = df.fillna({'col':'4'})
>>> df.show()
or df.fillna({'col':'4'}).show()
+---+
|col|
+---+
|  1|
|  2|
|  3|
|  4|
+---+

使用fillna有3个选项...

文档:

def fillna(self, value, subset=None):
   """Replace null values, alias for ``na.fill()``.
   :func:`DataFrame.fillna` and :func:`DataFrameNaFunctions.fill` are aliases of each other.
   :param value: int, long, float, string, bool or dict.
       Value to replace null values with.
       If the value is a dict, then `subset` is ignored and `value` must be a mapping
       from column name (string) to replacement value. The replacement value must be
       an int, long, float, boolean, or string.
   :param subset: optional list of column names to consider.
       Columns specified in subset that do not have matching data type are ignored.
       For example, if `value` is a string, and subset contains a non-string column,
       then the non-string column is simply ignored.

所以您可以:

  1. 用相同的值填充所有列:df.fillna(value)
  2. 通过列的字典 - >价值:df.fillna(dict_of_col_to_value)
  3. 通过一列列表以填充相同的值:df.fillna(value, subset=list_of_cols)

fillna()na.fill()的别名,因此它们是相同的。

相关内容

  • 没有找到相关文章

最新更新