在pandas数据帧中使用正则表达式匹配组的性能

我有一个约350k行的panda系列，我想应用panda。Series.str.extract函数使用由约100个子字符串组成的正则表达式，例如：

提取太慢：在我的jupyter笔记本(Python 3.9(中需要1分钟。为什么它这么慢？如何加快速度？

Edit 1我使用了"itemX"作为示例，但它可以被任何子字符串替换。正则表达式可能类似

'(carrageenan|dihydro|basketball|etc...)'

编辑2对一些评论的回答：

在大多数情况下，搜索多个单词的问题与许多搜索单词共享同一前缀有关，并且列表中的此类单词越多，查找匹配项所需的回溯步骤就越多，这会减慢代码执行速度。

正则表达式trie和单词边界(因为你需要一个精确的匹配(将在这里起到拯救作用。安装pip install trieregex并使用

from trieregex import TrieRegEx
keywords = ['item0','item1','item2','item3']
tr = TrieRegEx(*keywords)
pattern = fr'b({tr.regex()})b'

然后，可以使用pattern和.str.extract()方法。

如果您不需要使用某些第三方库来生成regex-trie，则可以使用本SO文章中的代码。

相关内容