首先,我有两个字符串列表:
['abc','abc','def','jkl']
['abc','def','def','pqr', 'pr', 'foo', 'bar']
然后我需要列表的计数器它们被归一化使得每个计数器的值之和等于1
Counter({'abc': 0.8164965809277261, 'jkl': 0.4082482904638631, 'def': 0.4082482904638631})
Counter({'abc': 1.1498299142610595, 'def': 1.0749149571305296, 'jkl': 0.4082482904638631, 'pr': 0.3333333333333333, 'bar': 0.3333333333333333, 'pqr': 0.3333333333333333, 'foo': 0.3333333333333333})
归一化因子
math.sqrt(sum(i*i for i in counter.values()))
我通过迭代抛出计数器键尝试了以下方法,但是是否有其他方法可以实现所说的x+y
计数器?
>>> from collections import Counter
>>> import math
>>> x = Counter(['abc','abc','def','jkl'])
>>> denominator = 1/math.sqrt(sum(math.pow(i,2) for i in x.values()))
>>> for i in x:
... x[i]*=denominator
...
>>> x
Counter({'abc': 0.8164965809277261, 'jkl': 0.4082482904638631, 'def': 0.4082482904638631})
>>> y = Counter(['abc','def','def','pqr', 'pr', 'foo', 'bar'])
>>> denominator2 = 1/math.sqrt(sum(math.pow(i,2) for i in y.values()))
>>> for i in y:
... y[i]*=denominator2
...
>>> y
Counter({'def': 0.6666666666666666, 'pr': 0.3333333333333333, 'abc': 0.3333333333333333, 'bar': 0.3333333333333333, 'pqr': 0.3333333333333333, 'foo': 0.3333333333333333})
>>> x+y
Counter({'abc': 1.1498299142610595, 'def': 1.0749149571305296, 'jkl': 0.4082482904638631, 'pr': 0.3333333333333333, 'bar': 0.3333333333333333, 'pqr': 0.3333333333333333, 'foo': 0.3333333333333333})
您需要将这些值相加,然后将每个计数除以总和:
total = sum(x.values(), 0.0)
for key in x:
x[key] /= total
通过从0.0
开始求和,我们确保total
是一个浮点值,避免了Python 2中/
具有整数操作数的地板除法行为。
>>> from collections import Counter
>>> x = Counter(['abc','abc','def','jkl'])
>>> total = sum(x.values(), 0.0)
>>> for key in x:
... x[key] /= total
...
>>> x
Counter({'abc': 0.5, 'jkl': 0.25, 'def': 0.25})
>>> y = Counter(['abc','def','def','pqr', 'pr', 'foo', 'bar'])
>>> total = sum(y.values(), 0.0)
>>> for key in y:
... y[key] /= total
...
>>> y
Counter({'def': 0.2857142857142857, 'pr': 0.14285714285714285, 'abc': 0.14285714285714285, 'bar': 0.14285714285714285, 'pqr': 0.14285714285714285, 'foo': 0.14285714285714285})
如果需要对计数器求和,则需要分别重新规范化结果计数器;对两个标准化计数器求和意味着您有一个新的计数器,例如,整个值求和为2。
List对象(l1
)的Counter对象(c1
)的规范化是将每个计数除以列表中元素的总数,即列表(total
)的长度。与计算(c1
)(如sum(c1.values(), 0.0)
)中的总数相比,这成本更低。
可以使用下面给出的第一个列表的例子:
l1 = ['abc','abc','def','jkl']
c1 = Counter(l1)
# Normalization
total = 1.0 * len(l1) # converting to float to avoid floor division in Python 2.X
for k in c1:
c1[k] /= total