如何使用PySpark选择两个数组不相等的记录,而不管数组元素的顺序如何?
使用array_sort首先对数组进行排序:
import pyspark.sql.functions as F
df.filter(F.array_sort(F.col('array1')) != F.array_sort(F.col('array2')))