我正在尝试使用CRFSuite,但我不知道如何使用示例/nerp .py和posp .py
正确地说,我如何输入这样的格式:
# Ner.py
fields = 'y w pos chk'
或
# Pos.py
fields = 'w num cap sym p1 p2 p3 p4 s1 s2 s3 s4 y'
例如,我可以从CoNNL模型中获得"y w pos",但是post .py中的"chk"部分和所有这些字段我都没有真正获得。
此外,是否有一种方法来处理原始文本(没有所有这些标签)与CRFSuite,因为我有一个训练有素的模型?
@michele是对的。此任务需要另一个数据集。我相信数据集在这里:http://www.cnts.ua.ac.be/conll2003/ner/
不能对本教程作者提供的数据使用ner.py
或pos.py
。你需要一个合适的CoNLL-2000数据集。:)
作为一个例子,你可以在这里找到它
我希望我已经正确地回答了你的问题。
事实证明,稍微修改pos.py
文件来做它应该做的事情更简单。现在pos.py
的输入格式是'w y'
,而'num cap sym p1 p2 p3 p4 s1 s2 s3 s4'
的特征都是由脚本本身生成的。这应该可以解决pos.py
的问题。以下是要点:
对于ner.py
脚本,如@Legend已经回答的,可以找到相应的输入数据格式,例如: