如何在 pyspark 中过滤列表中的值列



我有一个数据帧原始数据,我必须在其上对值为 CB、CI 和 CR 的 X 列应用过滤条件。所以我使用了下面的代码:

df = dfRawData.filter(col("X").between("CB","CI","CR"))

但是我收到以下错误:

between() 正好需要 3 个参数(给定 4 个)

请让我知道如何解决此问题。

函数 between 用于检查值是否在两个值之间,输入是否为下限和上限。它不能用于检查列值是否在列表中。为此,请使用isin

import pyspark.sql.functions as f
df = dfRawData.where(f.col("X").isin(["CB", "CI", "CR"]))

相关内容

  • 没有找到相关文章

最新更新