如何使用多个值更改SPARK中数据帧的NA值

i有一个带有null值的dataframe，我想从一系列值（例如从0到100的随机整数）替换为无效的值，而不是始终相同的值值。

na.fill()函数似乎不允许这样做，我找不到手动执行的好方法。
我在Python＆amp;火花2.2

逐一通过每个单元格，检查值是否为null，以及是否是将其更改为随机数。

首先，导入随机。然后类似：

df = df.where(df.a.isNull()).replace(null, random.randrange(min, max+1))

我终于提出了以下解决方案，希望它可以帮助某些人满足我的特定需求，即从数据框的列中删除null值，并用随机值替换它们：

def newRow(model,dataframe):
  rows=[]
  limit = 0
  exec("limit = dataframe.where(dataframe." + model[0] + ".isNull()).count()")
  for i in range(0, limit):
    x = ""
    exec("x = dataframe.where(dataframe."+ model[0] +".isNull()).collect()[i]")

    schema = StructType([StructField("A", StringType(), True),
                     StructField("B", StringType(), True),
                     StructField("C", StringType(), True),
                     StructField("D", StringType(), True),
                     StructField("E", StringType(), True)])
    A = None
    B = None
    C = None
    D = None
    E = None
    if x["A"] != None and model[0] != "A":
      A = x["A"].encode('ascii')
    if x["B"] != None and model[0] != "B":
      B = x["B"].encode('ascii')
    if x["C"] != None and model[0] != "C":
      C = x["C"].encode('ascii')
    if x["D"] != None and model[0] != "D":  
      D = x["D"].encode('ascii')    
    if x["E"] != None and model[0] != "E":
      E = x["E"].encode('ascii')
    exec(model[0] + "=" + model[1]) 
    rows.append(Row(A, B, C, D, E))
  return sqlContext.createDataFrame(rows,schema)

如何调用方法：

dfAmodel = newRow(("A","random.uniform(40, 80)"), df1) 
df2 = df1.na.drop(subset=['A']).union(dfAmodel)

此处dfamodel是一个新的数据框架，从输入dataframe df1中的a列中的null值和null值一样多。仅更改了来自A的零值，其他列的值保持不变。

MISC：exec（）非常有用，因为它从字符串中执行代码。
解决方案的强度是能够重用所需的多数DF重复使用此方法，只需更改所需的数据框架（即输入），指定要考虑的列以及将从中获取新闻值的公式。

。

相关内容

最新更新

热门标签：