从数据框架中删除带有Python正则表达式模式的单词



我正在使用Python中的正则表达式来处理以下数据。

Random
0  helloooo
1    hahaha
2     kebab
3      shsh
4     title
5      miss
6      were
7    laptop
8   welcome
9    pencil

我想删除有重复字母模式的单词(例如blaaaa),重复字母对(例如hahaha)和任何在一个字母周围有相同相邻字母的单词(例如tit)勒,《babw) .

代码如下:

import pandas as pd
data = {'Random' : ['helloooo', 'hahaha', 'kebab', 'shsh', 'title', 'miss', 'were', 'laptop', 'welcome', 'pencil']}
df = pd.DataFrame(data)
df = df.loc[~df.agg(lambda x: x.str.contains(r"([a-z])+1{1,}b"), axis=1).any(1)].reset_index(drop=True)
print(df)

下面是上面的输出,带有警告消息:

UserWarning: This pattern has match groups. To actually get the groups, use str.extract.
Random
0   hahaha
1    kebab
2     shsh
3    title
4     were
5   laptop
6  welcome
7   pencil

但是,我希望看到这个:

Random
0   laptop
1  welcome
2   pencil

您可以直接使用Series.str.contains创建掩码,并在之前禁用用户警告,之后启用它:

import pandas as pd
import warnings
data = {'Random' : ['helloooo', 'hahaha', 'kebab', 'shsh', 'title', 'miss', 'were', 'laptop', 'welcome', 'pencil']}
df = pd.DataFrame(data)
warnings.filterwarnings("ignore", 'This pattern has match groups') # Disable the warning
df['Random'] = df['Random'][~df['Random'].str.contains(r"([a-z]+)[a-z]?1")]
warnings.filterwarnings("always", 'This pattern has match groups') # Enable the warning

输出:

>>> df['Random'][~df['Random'].str.contains(r"([a-z]+)[a-z]?1")]
# =>     
7     laptop
8    welcome
9     pencil
Name: Random, dtype: object

您拥有的正则表达式包含一个问题:量词被放在组之外,并且1正在寻找错误的重复字符串。此外,b字边界是多余的。([a-z]+)[a-z]?1模式匹配一个或多个字母,然后是任何一个可选字母,以及紧跟在它后面的相同子字符串。

参见regex演示.

我们可以安全地禁用用户警告,因为我们在这里故意使用了捕获组,因为我们需要在这个正则表达式模式中使用反向引用。该警告需要重新启用,以避免在代码的其他部分不必要地使用捕获组。

IIUC,您可以使用类似模式r'(w+)(w)?1'的东西,即一个或多个字母,一个可选字母,以及第一个匹配的字母。这给出了正确的结果:

df[~df.Random.str.contains(r'(w+)(w)?1')]

最新更新