我有一个pyspark数据帧,叫做df。
ONE LINE EXAMPLE:
df.take(1)
[Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")]
我有一个假期列表:
holydays=[u'2016-12-25',u'2016-12-08'....]
如果"数据"在圣日列表中,我想day_type切换到"HOLIDAY",否则我想保留day_type字段不变。
这是我的非工作暂定:
df=df.withColumn("day_type",when(col("data") in holydays, "HOLIDAY").otherwise(col("day_type")))
PySpark不喜欢"在圣日"这个表达。它返回此错误:
ValueError: Cannot convert column into bool: please use '&' for 'and', '|'
关于您的第一个问题 - 您需要isin
:
spark.version
# u'2.2.0'
from pyspark.sql import Row
from pyspark.sql.functions import col, when
df=spark.createDataFrame([Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")])
holydays=[u'2016-12-25',u'2016-12-08']
df.withColumn("day_type",when(col("data").isin(holydays), "HOLIDAY").otherwise(col("day_type"))).show()
# +----------+--------+-----+
# | data|day_type| nome|
# +----------+--------+-----+
# |2016-12-25| HOLIDAY|Mauro|
# +----------+--------+-----+
关于你的第二个问题 - 我没有看到任何问题:
df.withColumn("day_type",when(col("data")=='2016-12-25', "HOLIDAY").otherwise(col("day_type"))).filter("day_type='HOLIDAY'").show()
# +----------+--------+-----+
# | data|day_type| nome|
# +----------+--------+-----+
# |2016-12-25| HOLIDAY|Mauro|
# +----------+--------+-----+
顺便说一句,提供比一行多一点的示例数据总是一个好主意......
在列上使用 isin 函数,而不是使用 in 子句来检查列表中是否存在值。示例代码:
df=df.withColumn("day_type",when(df.data.isin(holydays), "HOLIDAY").otherwise(df.day_type)))