如何在Spark中使用FILTER更新RDD



我有一个RDD文件,它有两个列O和d,每个列的值之间有一个边。例如,

<表类="年代桌子">ODtbody><bbg tdct<g/td>

我有个主意。函数。show()返回None。删除.show()(它只应该打印东西)。df1在你的代码中被设置为None。

list_O = df.select('O').rdd.flatMap(lambda x: x).collect()
df1 = df.filter(df.D.isin(list_O))

最新更新