MALLET CRF序列分类训练数据格式



我正在尝试使用槌槌库来训练CRF序列模型,但我缺少一些重要信息。我在库本身中找到了一个示例但是,该示例没有说明输入培训数据的格式,因此我不知道如何重新创建它。

mallet确实在http://mallet.cs.umass.edu/import-devel.php上有一个数据导入示例,但是特定示例似乎是用于文档分类而不是我的用例的CRF序列模型。

我尝试将输入培训数据放入http://mallet.cs.umass.edu/sepences.php的表格中

Bill CAPITALIZED noun
slept non-noun
here LOWERCASE STOPWORD non-noun

和表格中的测试数据

CAPITAL Al
        slept
        here

但是,基于输出日志,它似乎不是正确的格式。例如,日志中的一行是INFO: testing label slept P � R 0 F1 �,但slept不是标签 - 标签应为nounnon-noun

因此,如果有人可以告诉我培训数据应该是什么格式,那将很棒。

您链接到的代码示例具有指注释的培训文件的行。您的代码可能正在尝试在测试文件上训练吗?这会导致slept看起来像标签,因为它在行的末端,并解释了错误。

对于记录,我使用您上面给出的测试数据(使用命令行,而不是代码示例(尝试了示例,因此测试/火车格式似乎还可以。

相关内容

  • 没有找到相关文章

最新更新