无法找到使用正则表达式对 pandas 中的值集的子字符串的第一次出现



我有一个数据帧如下,我只需要在一组值的字符串中找到第一个出现。

我无法使用"查找"功能以及正则表达式和字典。如果我使用"findall"功能,它当然是找到所有事件,这不是我需要的。

Text
51000/1-PLASTIC 150 Prange
51034/2-RUBBER KL 100 AA
51556/3-PAPER BD+CM 1 BOXT2
52345/1-FLOW IJ 10place 500 plastic
54975/1-DIVIDER PQR 100 BC
54975/1-SCALE DEF 555 AB Apple 
54975/1-PLASTIC ABC 4.6 BB plastic  

法典:

import re
L = ['PLASTIC','RUBBER','PAPER','FLOW']
pat = '|'.join(r"b{}b".format(x) for x in L)
df['Result'] = df['Text'].str.find(pat, flags=re.I).str.join(' ')
print(df)
df = df.replace(r'^s*$', np.nan, regex=True)
df = df.replace(np.nan, "Not known", regex=True)
#df['Result'] = df['Result'].str.lower()

预期成果:

Text                                                   Result
51000/1-PLASTIC 150 Prange                            Plastic
51034/2-RUBBER KL 100 AA                              Rubber
51556/3-PAPER BD+CM 1 BOXT2                           Paper
52345/1-FLOW IJ 10place 500 plastic                   Flow
54975/1-DIVIDER PQR 100 BC                            Not known
54975/1-SCALE DEF 555 AB Apple                        Not KNown 
54975/1-PLASTIC ABC 4.6 BB plastic                    Plastic

错误:

TypeError: find(( 得到一个意外的关键字参数 'flags'

使用Series.str.findall代替find选择通过索引返回的findall列表的第一个值str[0]

import re
L = ['PLASTIC','RUBBER','PAPER','FLOW']
pat = '|'.join(r"b{}b".format(x) for x in L)
df['Result'] = df['Text'].str.findall(pat, flags=re.I).str[0]

或使用Series.str.extract

df['Result'] = df['Text'].str.extract('(' + pat + ')', flags=re.I)

然后将缺失值转换为Not known

df['Result'] = df['Result'].fillna("Not known")

最后如有必要,请使用Series.str.capitalize

df['Result'] = df['Result'].str.capitalize()
print (df)
Text     Result
0            51000/1-PLASTIC 150 Prange    Plastic
1              51034/2-RUBBER KL 100 AA     Rubber
2           51556/3-PAPER BD+CM 1 BOXT2      Paper
3   52345/1-FLOW IJ 10place 500 plastic       Flow
4            54975/1-DIVIDER PQR 100 BC  Not known
5        54975/1-SCALE DEF 555 AB Apple  Not known
6  54975/1-PLASTIC ABC 4.6 BB plastic      Plastic

相关内容

  • 没有找到相关文章

最新更新