我正在使用Python中的正则表达式来处理以下数据。
Random
0 helloooo
1 hahaha
2 kebab
3 shsh
4 title
5 miss
6 were
7 laptop
8 welcome
9 pencil
我想删除有重复字母模式的单词(例如blaaaa),重复字母对(例如hahaha)和任何在一个字母周围有相同相邻字母的单词(例如tit)勒,《babw在) .
代码如下:
import pandas as pd
data = {'Random' : ['helloooo', 'hahaha', 'kebab', 'shsh', 'title', 'miss', 'were', 'laptop', 'welcome', 'pencil']}
df = pd.DataFrame(data)
df = df.loc[~df.agg(lambda x: x.str.contains(r"([a-z])+1{1,}b"), axis=1).any(1)].reset_index(drop=True)
print(df)
下面是上面的输出,带有警告消息:
UserWarning: This pattern has match groups. To actually get the groups, use str.extract.
Random
0 hahaha
1 kebab
2 shsh
3 title
4 were
5 laptop
6 welcome
7 pencil
但是,我希望看到这个:
Random
0 laptop
1 welcome
2 pencil
您可以直接使用Series.str.contains
创建掩码,并在之前禁用用户警告,之后启用它:
import pandas as pd
import warnings
data = {'Random' : ['helloooo', 'hahaha', 'kebab', 'shsh', 'title', 'miss', 'were', 'laptop', 'welcome', 'pencil']}
df = pd.DataFrame(data)
warnings.filterwarnings("ignore", 'This pattern has match groups') # Disable the warning
df['Random'] = df['Random'][~df['Random'].str.contains(r"([a-z]+)[a-z]?1")]
warnings.filterwarnings("always", 'This pattern has match groups') # Enable the warning
输出:
>>> df['Random'][~df['Random'].str.contains(r"([a-z]+)[a-z]?1")]
# =>
7 laptop
8 welcome
9 pencil
Name: Random, dtype: object
您拥有的正则表达式包含一个问题:量词被放在组之外,并且1
正在寻找错误的重复字符串。此外,b
字边界是多余的。([a-z]+)[a-z]?1
模式匹配一个或多个字母,然后是任何一个可选字母,以及紧跟在它后面的相同子字符串。
参见regex演示.
我们可以安全地禁用用户警告,因为我们在这里故意使用了捕获组,因为我们需要在这个正则表达式模式中使用反向引用。该警告需要重新启用,以避免在代码的其他部分不必要地使用捕获组。
IIUC,您可以使用类似模式r'(w+)(w)?1'
的东西,即一个或多个字母,一个可选字母,以及第一个匹配的字母。这给出了正确的结果:
df[~df.Random.str.contains(r'(w+)(w)?1')]