统计原文件中的词频并进行映射



我试图使用一个修改版本的计数矢量器,我用它来适应一个系列。然后我得到单元格中所有值的计数之和。例:这是我正在拟合计数矢量器的级数。

["dog cat mouse", " cat mouse", "mouse mouse cat"]

最终结果应该看起来像:

[1+3+4, 3+4, 4+4+3]

我试过使用Counter,但在这种情况下它并不真正起作用。到目前为止,我只成功地得到了一个稀疏矩阵,但它打印出了单元格中元素的总数。但是,我想将计数映射到整个系列。

计数器列表的项只能以字符串的形式存储,之后可以使用eval()对字符串求值

代码:

lst = ["dog cat mouse", " cat mouse", "mouse mouse cat"]
res = {}
res2 = []
for i in lst:
for j in i.split(' '):
if j not in res.keys():
res[j] = 1
else:
res[j] += 1
for i in lst:
res2.append('+'.join([str(res[j]) for j in i.split(' ')]))
print(res2)

结果(res2)应与['1+3+4', '3+4', '4+4+3']相似

我想这就是你想要的……

相关内容

  • 没有找到相关文章

最新更新