在Pyspark数据框架中替换值



我是Pyspark的新手,并从事我面临两个问题的第一个Spark Project。

a)无法使用

引用列
df["col1"].show() 
***TypeError: 'Column' object is not callable***

b)无法用像均值

这样的汇总值替换我的火花数据帧中的值
Code:
from pyspark import SparkConf, SparkContext
from pyspark.sql.functions import *
from pyspark.sql import Row, HiveContext, SQLContext, Column
from pyspark.sql.types import *
df = hive_context.table("db_new.temp_table")
df.select("col1").fillna(df.select("col1").mean())
***AttributeError: 'DataFrame' object has no attribute 'mean'***

任何帮助都非常感谢!

更新:

我尝试了以下代码段,但正在返回另一个错误。

df.withColumn("new_Col", when("ColA".isNull,df.select(mean("ColA"))
  .first()(0).asInstanceOf[Double])
  .otherwise("ColA"))
AttributeError: 'str' object has no attribute 'isNull'

这应该有效:

df[["col1"]].show() 

相关内容

  • 没有找到相关文章

最新更新