mallet simpletagger不同数量的谓词

我正在尝试此处提供的SimpleTagger教程。我运行了与页面上提供的完全相同的命令。

java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --train true --model-file nouncrf sample

和

java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --model-file nouncrf stest。

这是我的sample和stest文件。

$ cat sample

Bill CAPITALIZED noun  
slept non-noun  
here LOWERCASE STOPWORD non-noun

$ cat stest

CAPITAL Al  
        slept  
        here

但是，我的输出与他们页面上的输出不同。这是我得到的输出。

Number of predicates: 9  
noun   
non-noun   
non-noun

我的问题是

"谓词数"表示什么？
为什么我要获得9个谓词，而官方消息人士要求相同输入文件的5个谓词？

我正在使用槌槌2.0.8，如果很重要。

开始培训时，SimpleTagger给您的第一条消息是：

Number of features in training data: x
Number of predicates: y

谓词y的数量是训练数据包含的不同令牌(或行(的数量。

使用上一列火车的模型(具有y谓词(标记文件时，您会收到一条消息：

Number of predicates: z

此z是y的总和，以及要标记的文件包含的不同令牌(或行(的数量。这就是为什么z总是比y更大(或相等(。例如，如果您尝试使用具有y谓词的模型标记一个空的内容文本文件，则您将获得许多谓词y，即y + 0 = y，因为您的空文件具有0标签。

相关内容