使用Mallet cmd提示符批量进行序列标记



我已经在 mallet 的 cmd 提示界面上测试了用于序列标记的 SimpleTagger。我现在想训练许多文件并批量运行测试。也可以在 mallet 的命令提示符上执行此操作吗?在我深入研究 JAVA API 之前,我想先了解手头任务的算法性能。

我已经看到分类任务可以从命令提示符批量运行。

  • 是否可以批量使用SimpleTagger?如果没有
  • 有人可以指出我一个参考代码,其中序列标记是使用 java API 批量完成的。

我在某处找到了对"http://mallet.cs.umass.edu/index.php/Command_line_tutorial"的引用,但链接似乎已断开。

经过一番探索,我了解到不可能轻易使用 cc.mallet.fst.SimpleTagger 进行批量评估。相反,我发现cc.mallet.examples.TrainCRF是一个方便的代码(使用SimpleTagger(。该代码将训练和测试数据集(采用 Mallet 序列标记格式,实例由单行分隔(作为输入参数,仅此而已。

我使用了 Mallet 页面上提供的 mallet-2.0.8 安装。

请注意不要根据测试集的性能调整模型。您应该避免这种情况,并且在充分调整训练集上的模型之前,不要验证测试集的性能。

相关内容

  • 没有找到相关文章

最新更新