如何计算包含特定单词的文档



假设我有这样的字典:

docDict = {"alpha": ["a", "b", "c", "a", "b"], "bravo": ["b", "c", "d", "c", "d"]}

而我想做的就像计算"文档频率"一样:假设每个字典项目都是一个文档,并且我有一个特定的单词,那么有多少文档包含该单词?

我看过很多帖子告诉我如何计算频率,但是在这里,如果"a"在文档"alpha"中出现两次,我只需要计数为1。所以"a"的"频率"应该是1,"c"应该是2。

我知道我可以迭代整个文档字典,并在文档中查找单词时添加计数器。或者我可以先使每个文档中的单词唯一,然后合并所有文档并计算单词。

但我认为有更好的方法,更有效的方法。有什么想法吗?

顺便说一句,有什么方法可以保留字典的结构吗?在此示例中,我希望得到{"alpha": {'c': 2, 'b': 2, 'a': 1}, "bravo": {'c': 2, 'b': 2, 'd': 1}

更新

如果这里我只有一个列表(类似于 [["a", "b", "c", "a", "b"], ["b", "c", "d", "c", "d"]] ),我如何获得像 [[1, 2, 2, 0], [0, 2, 2, 1]] 这样的结果列表.

我不知道。关键是要扩展每个列表并确保术语的顺序。思潮?

我会使用您的第二种方式使用collections.Counterset.

>>> from collections import Counter
>>> sum((Counter(set(x)) for x in docDict.itervalues()), Counter())
Counter({'c': 2, 'b': 2, 'a': 1, 'd': 1})

更新 1:

>>> c = sum((Counter(set(x)) for x in docDict.itervalues()), Counter())
>>> {k: {k1:c[k1] for k1 in set(v)} for k, v in docDict.iteritems()}
{'alpha': {'a': 1, 'c': 2, 'b': 2}, 'bravo': {'c': 2, 'b': 2, 'd': 1}}

更新 2::

如果性能是一个问题,那么不要将Countersum一起使用,这是另一种方法。请注意,与@user2931409答案不同,我不会在内存中保留一组单词只是为了获得它们的长度,因此这比它们的答案更节省内存,但略慢。

result = Counter()
for v in docDict.itervalues():
    result.update(set(v))
return result

时序比较:

def func1():
    #http://stackoverflow.com/a/22787509/846892
    result = defaultdict(set)
    for k, vlist in docDict.items():
        for v in vlist:
            result[v].add(k)
    return dict(zip(result.keys(), map(lambda x:len(x), result.values())))
def func2():
    result = Counter()
    for v in docDict.itervalues():
        result.update(set(v))
    return result
In [94]: docDict = {''.join(random.choice(lis) for _ in xrange(8)): random.sample(lis, 25)
    ...:   for _ in xrange(70000)}
In [95]: %timeit func1(docDict)
1 loops, best of 3: 380 ms per loop
In [96]: %timeit func2(docDict)
1 loops, best of 3: 591 ms per loop
In [97]: docDict = {''.join(random.choice(lis) for _ in xrange(8)): random.sample(lis, 25)
    ...:   for _ in xrange(10**5)}
In [98]: %timeit func1(docDict)
1 loops, best of 3: 529 ms per loop
In [99]: %timeit func2(docDict)
1 loops, best of 3: 848 ms per loop
In [101]: func1(docDict) == func2(docDict)
Out[101]: True

这不是特别的一种,很普通的方式。

from collections import defaultdict
docDict = {"alpha": ["a", "b", "c", "a", "b"], "bravo": ["b", "c", "d", "c", "d"]}
result = defaultdict(set)
for k, vlist in docDict.items():
    for v in vlist:
        result[v].add(k)
#Now the result looks like this.
#{'a': set(['alpha']), 'c': set(['alpha', 'bravo']), 'b': set(['alpha', 'bravo']), 'd': set(['bravo'])})
print dict(zip(result.keys(), map(lambda x:len(x), result.values())))
#{'a': 1, 'c': 2, 'b': 2, 'd': 1}

更新

另一种方式...只是数数。并改为使用迭代器。所以它比上面的代码更快。

from collections import defaultdict
def func3(docDict):
    result = defaultdict(int)
    for vlist in docDict.itervalues():
        for i in set(vlist):
            result[i] += 1
    return dict(result)
docDict = {"alpha": ["a", "b", "c", "a", "b"], "bravo": ["b", "c", "d", "c", "d"]}
revDict = {v : sum(1 for l in docDict.values() if v in l)  
        for v in set(x for y in docDict.values() for x in y) }
print revDict

给:

{'a': 1, 'c': 2, 'b': 2, 'd': 1}

您可以使用 set 来统一单个文档中的字符。然后简单地Counter()它们。

from collections import Counter
docDict = {"alpha": ["a", "b", "c", "a", "b"], "bravo": ["b", "c", "d", "c", "d"]}
result = reduce(lambda x, y: x + Counter(set(y)), docDict.itervalues(), Counter([]))

相关内容

  • 没有找到相关文章

最新更新