我正在尝试此处提供的SimpleTagger
教程。我运行了与页面上提供的完全相同的命令。
java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --train true --model-file nouncrf sample
和
java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --model-file nouncrf stest
。
这是我的sample
和stest
文件。
$ cat sample
Bill CAPITALIZED noun
slept non-noun
here LOWERCASE STOPWORD non-noun
$ cat stest
CAPITAL Al
slept
here
但是,我的输出与他们页面上的输出不同。这是我得到的输出。
Number of predicates: 9
noun
non-noun
non-noun
我的问题是
- "谓词数"表示什么?
- 为什么我要获得9个谓词,而官方消息人士要求相同输入文件的5个谓词?
我正在使用槌槌2.0.8,如果很重要。
开始培训时,SimpleTagger
给您的第一条消息是:
Number of features in training data: x
Number of predicates: y
谓词y
的数量是训练数据包含的不同令牌(或行(的数量。
使用上一列火车的模型(具有y
谓词(标记文件时,您会收到一条消息:
Number of predicates: z
此z
是y
的总和,以及要标记的文件包含的不同令牌(或行(的数量。这就是为什么z
总是比y
更大(或相等(。例如,如果您尝试使用具有y
谓词的模型标记一个空的内容文本文件,则您将获得许多谓词y
,即y + 0 = y
,因为您的空文件具有0
标签。