小贝子编程

我如何从pyspark数据帧开始以2K删除记录

本文关键字：2K 删除记录开始数据帧 pyspark apache-spark pyspark apache-spark-sql
更新时间 : 2023-09-23
英文 : How can I drop record from pyspark data frame starts with 2K

我使用pyspark 3.0.1。我想从我的pyspark数据帧df的group列中删除行，其中记录从2K开始。

我的样本数据看起来像

Name  Age Group
John   23  1L12
Rami   32  2K18
Pat    35  1P28

在删除后，我的最终数据帧应该看起来像

Name  Age Group
John   23  1L12
Pat    35  1P28

尝试检查startswith:

df2 = df.filter(~df.Group.startswith("2K"))

或使用rlike/like:

df2 = df.filter(~df.Group.rlike("^2K"))
df2 = df.filter(~df.Group.like("2K%"))

您可以使用列方法startswith:

进行筛选

from pyspark.sql import functions as F
df1 = df.filter(~F.col("Group").startswith("2K"))
df1.show()
#+----+---+-----+
#|Name|Age|Group|
#+----+---+-----+
#|John| 23| 1L12|
#| Pat| 35| 1P28|
#+----+---+-----+

我如何从pyspark数据帧开始以2K删除记录

相关内容

最新更新

热门标签：