使用以下方法训练新模型时:
java -mx1g edu.stanford.nlp.tagger.maxent.MaxentTagger -props myPropertiesFile.prop
假设myPropertiesFile.prop
中指定的模型已存在。新模型是从头开始训练还是从现有参数开始训练?在这种情况下,我可以控制所执行的操作吗?
一些背景:
我想首先在一个非常大的不那么准确的标记数据的语料库上训练标记器,然后继续在一个更小的准确数据语料库上训练(所谓的warm start
(
它将从头开始构建一个新模型。据我所知,没有在一个数据集上训练模型,然后在另一个数据集上继续训练的功能。 您可以修改代码以接受初始特征和权重,然后从那里开始训练,但它并没有设置为轻松做到这一点。