对于定量分析,我想统计在一组描述中识别出多少特定类型的实体。
- 我正在阅读excel文件
- 检查尺寸
- 遍历前100条记录
到目前为止还不错-现在我想计算在处理的行/行中识别出某种类型的实体的任何时间,然后打印结果:
例如:
PERSON: 34,
ORG: 10,
PRODUCT: 23,...
print('RAWDATASIZE:',rawdata["Activity.Description"].size)
print('Summary of entities recognized:')
count = {}
for index, row in validation_rawdata.head(100).iterrows():
line = row['Activity.Description']
if not (line is None):
doc = nlp(str(line))
entities = {}
entities_text = []
for ent in doc.ents:
count[ent.label_] =+ 1
print(count)
当前输出如下:
RAWDATASIZE: 233291
Summary of entities recognized:
{'PERSON': 1, 'DATE': 1, 'GPE': 1, 'SHS_PRODUCT': 1, 'ORG': 1, 'NORP': 1, 'CARDINAL': 1, 'TIME': 1, 'LOC': 1, 'WORK_OF_ART': 1}
所以它似乎在每次迭代后都会重置计数。如何更改代码继续计数?
您的代码中有一个拼写错误:=+ 1
应为+= 1