在scala spark中,如果A列值不等于B列值或与B列值相同,我们可以进行过滤df.filter(col("A")=!=col("B"))
我们如何在Pyspark中做到这一点?
我尝试过不同的选项,比如df.filter(~(df["A"] == df["B"]))
和!=
运算,但得到错误
看一下这个代码片段:
df = spark.createDataFrame([(1, 2), (1, 1)], "id: int, val: int")
df.show()
+---+---+
| id|val|
+---+---+
| 1| 2|
| 1| 1|
+---+---+
from pyspark.sql.functions import col
df.filter(col("id") != col("val")).show()
+---+---+
| id|val|
+---+---+
| 1| 2|
+---+---+