Python Pandas Regex:在列中搜索带有通配符的字符串并返回匹配项



我在一列中有一个搜索列表,其中可能包含一个键:'keyword1*keyword2',以尝试在单独的数据帧列中查找匹配项。如何包含正则表达式通配符类型'keyword1.*keyword2' #using str.extract, extractall or findall?

使用 .str.extract 可以很好地匹配确切的子字符串,但我还需要它来匹配关键字之间的通配符的子字符串。

# dataframe column or series list as keys to search for: 
dfKeys = pd.DataFrame()
dfKeys['SearchFor'] = ['this', 'Something', 'Second', 'Keyword1.*Keyword2', 'Stuff', 'One' ]
# col_next_to_SearchFor_col
dfKeys['AdjacentCol'] = ['this other string', 'SomeString Else', 'Second String Player', 'Keyword1 Keyword2', 'More String Stuff', 'One More String Example' ]
# dataframe column to search in: 
df1['Description'] = ['Something Here','Second Item 7', 'Something There', 'strng KEYWORD1 moreJARGON 06/0 010 KEYWORD2 andMORE b4END', 'Second Item 7', 'Even More Stuff']]
# I've tried:
df1['Matched'] = df1['Description'].str.extract('(%s)' % '|'.join(key['searchFor']), flags=re.IGNORECASE, expand=False)

我还尝试用"extractall"和"findall"替换上面的代码中的"extract",但它仍然没有给我所需的结果。我希望'Keyword1*Keyword2'能匹配"strng KEYWORD1 moreJARGON 06/0 010 KEYWORD2 andMORE b4END"

更新:".*"有效!我还尝试从"SearchFor"列中匹配键旁边的单元格中添加值,即 dfKeys['AdjacentCol'] .

我试过: df1['From_AdjacentCol'] = df1['Description'].str.extract('(%s)' % '|'.join(key['searchFor']), flags=re.IGNORECASE, expand=False).map(dfKeys.set_index('SearchFor')['AdjacentCol'].to_dict()).fillna('')适用于除通配符键之外的所有内容。

# expected:
  Description                                      Matched            From_AdjacentCol
0 'Something Here'                                 'Something'         'this other string'
1 'Second Item 7'                                  'Second'            'Second String Player'
2 'Something There'                                'Something'         'this other string'  
3 'strng KEYWORD1 moreJARGON 06/0 010 KEYWORD2...' 'Keyword1*Keyword2' 'Keyword1 Keyword2'
4 'Second Item 7'                                  'Second'            'Second String Player'
5 'Even More Stuff'                                'Stuff'             'More String Stuff'

非常感谢对此的任何帮助。 谢谢!

解决方案

您已经接近解决方案,只需将*更改为.*即可。阅读文档:

. (点(在默认模式下,这将匹配除换行符以外的任何字符。如果已指定 DOTALL 标志,则匹配任何 字符,包括换行符。

* 使生成的 RE 与前面的 RE 匹配 0 个或多个重复项,并尽可能多地重复。ab* 将匹配"a", "ab"或"a"后跟任意数量的"b"。

在正则表达式中,星形符号本身*没有任何意义。它与Unix/Windows文件系统中通常的glob运算符*具有不同的含义。

星号符号是一个量词(即gready量词(,它必须与某种模式相关联(这里.匹配任何字符(才能表示某些东西。

MCVE

重塑您的 MCVE:

import re
import pandas as pd
keys = ['this', 'Something', 'Second', 'Keyword1.*Keyword2', 'Stuff', 'One' ]
df1 = pd.DataFrame()
df1['Description'] = ['Something Here','Second Item 7', 'Something There',
                      'strng KEYWORD1 moreJARGON 06/0 010 KEYWORD2 andMORE b4END',
                      'Second Item 7', 'Even More Stuff']

regstr = '(%s)' % '|'.join(keys)
df1['Matched'] = df1['Description'].str.extract(regstr, flags=re.IGNORECASE, expand=False)

正则表达式现在是:

(this|Something|Second|Keyword1.*Keyword2|Stuff|One)

并匹配缺失的大小写:

                                         Description                                Matched
0                                     Something Here                              Something
1                                      Second Item 7                                 Second
2                                    Something There                              Something
3  strng KEYWORD1 moreJARGON 06/0 010 KEYWORD2 an...  KEYWORD1 moreJARGON 06/0 010 KEYWORD2
4                                      Second Item 7                                 Second
5                                    Even More Stuff                                  Stuff

相关内容

  • 没有找到相关文章

最新更新