自定义NER和POS标签



我正在检查Stanford Corenlp,以了解NER和POS标记。但是,如果我想为<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>等实体创建自定义标签,该怎么办?Corenlp在这种情况下有用吗?

corenlp开箱即用的类型:人员,位置,组织,杂项,日期,时间,金钱,数字。不,您将无法仅仅假设它可以"直观地"来识别其他实体:)

实际上,您必须选择:

  1. 找到标记这些类型的另一个NER系统
  2. 使用基于知识/无监督的方法来解决此标记任务。
  3. 搜索包含您想要识别类型的额外资源(COLPORA),并重新培训有监督的NER系统(Corenlp或其他)
  4. 构建(可能是注释)您自己的资源 - 然后您必须定义注释方案,规则等 - 很有趣的部分!

的确,除非您找到满足您需求的现有系统,否则将需要一些努力!无监督的方法可以帮助您引导系统,以查看您是否需要找到/注释专用的语料库。在后一种情况下,最好将数据分开为火车/开发/测试零件,以便能够评估所得系统在看不见的数据上的执行程度。

查看此常见问题解答(http://nlp.stanford.edu/software/crf-faq.shtml),以使用CRF分类器来训练您的新类型。您可能会发现它有用。

最新更新