如何对每个标签的已识别实体进行计数

对于定量分析，我想统计在一组描述中识别出多少特定类型的实体。

我正在阅读excel文件
检查尺寸
遍历前100条记录

到目前为止还不错-现在我想计算在处理的行/行中识别出某种类型的实体的任何时间，然后打印结果：

例如：

PERSON: 34,
ORG: 10,
PRODUCT: 23,...

print('RAWDATASIZE:',rawdata["Activity.Description"].size)
print('Summary of entities recognized:')
count = {}
for index, row in validation_rawdata.head(100).iterrows():
line = row['Activity.Description']
if not (line is None):
doc = nlp(str(line))
entities = {}
entities_text = []
for ent in doc.ents:
count[ent.label_] =+ 1

print(count)

当前输出如下：

RAWDATASIZE: 233291
Summary of entities recognized:
{'PERSON': 1, 'DATE': 1, 'GPE': 1, 'SHS_PRODUCT': 1, 'ORG': 1, 'NORP': 1, 'CARDINAL': 1, 'TIME': 1, 'LOC': 1, 'WORK_OF_ART': 1}

所以它似乎在每次迭代后都会重置计数。如何更改代码继续计数？

您的代码中有一个拼写错误：=+ 1应为+= 1

相关内容

最新更新

热门标签：