删除数据帧行中只包含数字的字符串



我的数据框架包含很多行,包括:
  • 数字;
  • 数字和空格;
  • 字符串与数字混合(参见hello guys34 g00d j0b.);
+--------------------------+--------+
|   Content                | Score  |
+--------------------------+--------+
| Hello my name is Tim.    | 3      |
| 081332111333             | 4      |
| 08 97 5524               | 1      |
| 10 08 2021               | 1      |
| Great App                | 3      |
| Hell0 guys34 g00d j0b.   | 5      |
. . . . . . . . . .      . . .
| 122345324 2331 111111    | 3      |
+--------------------------+--------+

是否有一种方法来清理,即删除这3种类型的可能的行,出现在我的数据框中,使用withColumn,或任何其他快速方法?
我创建了一个for循环,遍历Dataframe中的所有行,但是超过100万行,需要很长时间。我的环境是Google Colab
非常感谢!

使用pyspark,我将简单地做这样的事情:

#assuming df is your dataframe
df.where(~df["content"].rlike("d")).show()

d匹配任意十进制数字。相当于[0-9]

最新更新