pyspark:在行内数组的滤波器内容

在pyspark中，可以使用以下代码过滤数组：

lines.filter(lambda line: "some" in line)

，但我已经从JSON文件中读取了数据并将其归为标记。现在它具有以下形式：

df=[Row(text=u"i have some text", words=[u'I', u'have', u"some'", u'text'])]

如何从单词数组中滤除"一些"？

您可以使用array_contains，自1.4以来可用：

from pyspark.sql import Row
from pyspark.sql import functions as F
df = sqlContext.createDataFrame([Row(text=u"i have some text", words=[u'I', u'have', u'some', u'text'])])
df.withColumn("keep", F.array_contains(df.words,"some")) 
  .filter(F.col("keep")==True).show()
# +----------------+--------------------+----+
# |            text|               words|keep|
# +----------------+--------------------+----+
# |i have some text|[I, have, some, t...|true|
# +----------------+--------------------+----+

如果您想过滤出"一些"，就像我在评论中所说的那样，可以使用StopWordsRemover API

from pyspark.ml.feature import StopWordsRemover
StopWordsRemover(inputCol="words", stopWords=["some"]).transform(df)

相关内容

最新更新

热门标签：