如何对每个标签的已识别实体进行计数

  • 本文关键字:实体 识别 标签 python
  • 更新时间 :
  • 英文 :


对于定量分析,我想统计在一组描述中识别出多少特定类型的实体。

  1. 我正在阅读excel文件
  2. 检查尺寸
  3. 遍历前100条记录

到目前为止还不错-现在我想计算在处理的行/行中识别出某种类型的实体的任何时间,然后打印结果:

例如:

PERSON: 34,
ORG: 10,
PRODUCT: 23,...
print('RAWDATASIZE:',rawdata["Activity.Description"].size)
print('Summary of entities recognized:')
count = {}
for index, row in validation_rawdata.head(100).iterrows():
line = row['Activity.Description']
if not (line is None):
doc = nlp(str(line))
entities = {}
entities_text = []
for ent in doc.ents:
count[ent.label_] =+ 1

print(count)

当前输出如下:

RAWDATASIZE: 233291
Summary of entities recognized:
{'PERSON': 1, 'DATE': 1, 'GPE': 1, 'SHS_PRODUCT': 1, 'ORG': 1, 'NORP': 1, 'CARDINAL': 1, 'TIME': 1, 'LOC': 1, 'WORK_OF_ART': 1}

所以它似乎在每次迭代后都会重置计数。如何更改代码继续计数?

您的代码中有一个拼写错误:=+ 1应为+= 1

最新更新