在pyspark中对来自同一数据框架的两列进行不等式检验



在scala spark中,如果A列值不等于B列值或与B列值相同,我们可以进行过滤df.filter(col("A")=!=col("B"))我们如何在Pyspark中做到这一点?

我尝试过不同的选项,比如df.filter(~(df["A"] == df["B"]))!=运算,但得到错误

看一下这个代码片段:

df = spark.createDataFrame([(1, 2), (1, 1)], "id: int, val: int")
df.show()
+---+---+
| id|val|
+---+---+
|  1|  2|
|  1|  1|
+---+---+
from pyspark.sql.functions import col
df.filter(col("id") != col("val")).show()
+---+---+
| id|val|
+---+---+
|  1|  2|
+---+---+

最新更新