Stanford NER道具文件DistSim的含义



在斯坦福大学NER软件附带的一个示例.prp文件中,有两个选项我不理解:

useDistSim = true
distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters

有人知道DistSim代表什么吗?我在哪里可以找到更多关于如何使用这些选项的文档?

更新:我刚刚发现DistSim的意思是分布相似性。我仍然想知道在这种情况下这意味着什么。

"DistSim"是指使用基于单词类/聚类的特征,这些特征是使用分布式相似性聚类方法(例如,Brown聚类、exchange聚类)构建的。单词类对语义和/或语法上相似的单词进行分组,并允许NER系统更好地泛化,包括更好地处理不在NER系统的训练数据中的单词。我们的许多分布式模型使用了分布相似性聚类特征和单词同一性特征,并从中获得了显著的收益。在Stanford NER中,有一大堆标志/属性影响分布相似性的解释/使用:useDistSimdistSimLexicondistSimFileFormatdistSimMaxBitscasedDistSimnumberEquivalenceDistSimunknownWordDistSimClass,你需要查看NERFeatureFactory.java中的代码来解码细节,但在简单的情况下,你只需要前两个,它们需要在训练模型和测试时使用。词典的默认格式只是一个文本文件,其中包含一系列行和两列以制表符分隔的word clusterName。集群名称是任意的。

最新更新