用于单词对共现计数的高效Python

我想要一种高效的Python方法来计算文本中的相邻单词对。高效，因为它需要与更大的数据集协同工作。

计数的方式也很重要。

考虑这个简化的例子：

words_list = "apple banana banana apple".split()

我可以使用创建相邻对

word_pair_list = zip(words_list[:-1], words_list[1:])

然后，我可以使用进行Python计数

word_pair_ctr = collections.Counter(word_pair_list)

这给了我

(('apple', 'banana'), 1)
(('banana', 'banana'), 1)
(('banana', 'apple'), 1)

注意，'apple'和'apple'不是相邻的对。

但我希望这对的顺序不算在内。这意味着('apple', 'banana')和('banana', 'apple')应该被认为是相同的，并且计数应该是

(('apple', 'banana'), 2)
(('banana', 'banana'), 1)

我找不到一种Python式的方法可以做到这一点，而不需要我访问单词列表中的每一项，这对于较大的文本来说效率很低。

我很乐意使用普通的scipy、numpy和panda作为图书馆。

您可以使用官方文档中成对函数的修改版本(https://docs.python.org/3.8/library/itertools.html)为了按对读取您的列表，同时对每对的成员进行重新排序：

l = "apple banana banana apple".split()
def pairwise(iterable):
"""s -> (s0,s1), (s1,s2), (s2, s3), ..."""
a, b = itertools.tee(iterable)
next(b, None)
return ((a, b) if a < b else (b, a) for a, b in zip(a, b))
>>> list(pairwise(l))
<class 'list'>: ['apple', 'banana', 'banana', 'apple']
>>> collections.Counter(pairwise(l))
Counter({('apple', 'banana'): 2, ('banana', 'banana'): 1})

希望这能有所帮助！

有几种内置的解决方案。

将`word_pair_list`映射到`frozenset`：

word_pair_ctr = collections.Counter(map(frozenset, word_pair_list))

结果：

Counter({frozenset({'apple', 'banana'}): 2, frozenset({'banana'}): 1})

第二个集合可能看起来很奇怪，但这只是因为集合只包含一个相同的元素。检索仍然有效，即word_pair_ctr[frozenset(["banana", "banana"])]等于1。

您需要使用frozenset而不是普通集，因为普通集是不可哈希的，因此不能是字典(或Counter)中的键。

在插入计数器之前对配对进行排序：

word_pair_ctr = collections.Counter(map(lambda x: tuple(sorted(x)), word_pair_list))

结果如下：

Counter({('apple', 'banana'): 2, ('banana', 'banana'): 1})

虽然这看起来可能更好，但您必须确保以相同的方式访问计数，即word_pair_ctr[tuple(sorted([word1, word2]))]，这可能比以前的解决方案更复杂。

子类计数器

第三种选择是制作自己的计数器类，为您完成这一切。

class BiDirectionalCounter(collections.Counter):
def __init__(self, iterable):
super().__init__(map(lambda x: tuple(sorted(x)), iterable))
def __getitem__(self, items):
return super().__getitem__(tuple(sorted(items)))

这似乎有效：

>>> BidirectionalCounter(word_pair_list)
BidirectionalCounter({('apple', 'banana'): 2, ('banana', 'banana'): 1})

但要真正工作，您需要实现所有相关的dunder方法，即__setitem__、__add__、__iadd__。。。

将`word_pair_list`映射到`frozenset`：

在插入计数器之前对配对进行排序：

子类计数器

相关内容

最新更新

热门标签：

用于单词对共现计数的高效Python

将word_pair_list映射到frozenset：

在插入计数器之前对配对进行排序：

子类计数器

相关内容

最新更新

热门标签：

将`word_pair_list`映射到`frozenset`：