如何在pyspark中替换左联接表中的null值



我有两个表。表1有500万行,表2有300万行。当我执行table1.join(table2,…,'left_outer'(时,表2中的所有列在新表中都有空值。它看起来如下(表2中的var3和4是可变长度字符串的数组(:

t1.id var1 var2     table2.id        table2.var3  table2.var4
1  1.3  4               1          ['a','b','d']  ['x','y','z']
2  3.0   5              2          ['a','c','m','n'] ['x','z']
3  2.3   5

我计划在联接后使用countvectorizer,它不能处理null值。所以我想用字符串类型的空数组来替换null值。

这是一个类似于PySpark中讨论的问题,用数组替换Null

但是表2中有10多个变量,每个变量都有不同的维度。

我能做什么有什么建议吗?我可以在加入之前做计数矢量器吗?

Dataframe具有.na.fill((属性。

replace_cols = {col:'' for col in df.columns}
df.na.fill(replace_cols)

相关内容

  • 没有找到相关文章

最新更新