我的数据框架包含很多行,包括:
我的数据框架包含很多行,包括:
- 数字;
- 数字和空格;
- 字符串与数字混合(参见hello guys34 g00d j0b.);
+--------------------------+--------+
| Content | Score |
+--------------------------+--------+
| Hello my name is Tim. | 3 |
| 081332111333 | 4 |
| 08 97 5524 | 1 |
| 10 08 2021 | 1 |
| Great App | 3 |
| Hell0 guys34 g00d j0b. | 5 |
. . . . . . . . . . . . .
| 122345324 2331 111111 | 3 |
+--------------------------+--------+
是否有一种方法来清理,即删除这3种类型的可能的行,出现在我的数据框中,使用withColumn,或任何其他快速方法?
我创建了一个for循环,遍历Dataframe中的所有行,但是超过100万行,需要很长时间。我的环境是Google Colab
非常感谢!
使用pyspark,我将简单地做这样的事情:
#assuming df is your dataframe
df.where(~df["content"].rlike("d")).show()
d
匹配任意十进制数字。相当于[0-9]