PySpark：类型错误：'Row'对象不支持项目分配

我使用以下代码将数据帧行中的None值替换为空字符串：

def replaceNone(row):
  row_len = len(row)
  for i in range(0, row_len):
    if row[i] is None:
      row[i] = ""    
  return row

在我的 pyspark 代码中：

data_out = df.rdd.map(lambda row : replaceNone(row)).map(
  lambda row : "t".join( [x.encode("utf-8") if isinstance(x, basestring) else str(x).encode("utf-8") for x in row])
)

然后我收到以下错误：

File "<ipython-input-10-8e5d8b2c3a7f>", line 1, in <lambda>
  File "<ipython-input-2-d1153a537442>", line 6, in replaceNone
TypeError: 'Row' object does not support item assignment

有人对错误有任何想法吗？如何将行中的"无"值替换为空字符串？谢谢！

Row是tuple的子类，Python 中的tuples是不可变的，因此不支持项目分配。如果要替换存储在元组中的项，可以从头开始重建它：

## replace "" with placeholder of your choice 
tuple(x if x is not None else "" for x in row)

如果要简单地连接平面模式，将 null 替换为空字符串，可以使用concat_ws：

from pyspark.sql.functions import concat_ws
df.select(concat_ws("t", *df.columns)).rdd.flatMap(lambda x: x)

要准备输出，使用 spark-csv 并指定 nullValue 、 delimiter 和 quoteMode 更有意义。

相关内容

最新更新

热门标签：