对不属于任何标签的文本训练Spacy TextCategorizer



我开始尝试Spacy的TextCategorizer,并能够用几百个示例和每个示例的独占标签来训练模型。我的想法是将这个模型应用于文本块(逐句或逐段(,并为每个块获得一个标签。但很多区块实际上应该没有标签,因为它们不属于任何类别。我有两个想法:

  • 添加一个额外的标签other,并使用该标签训练不属于任何其他类别的示例
  • 对于不属于任何其他类别的示例,将所有标签的分数设置为0.0

或者还有其他方法吗?这是TextCategorizer可以做的事情吗?或者我可以尝试其他可能更好的模型吗?

听起来应该使用即将在3.1中发布的SpanClassifier。关于你的其他方法。。。

添加一个额外的标签other,并用这个标签训练不属于任何其他类别的示例。

这很好,除了"其他";类别往往很难学习。

对于不属于任何其他类别的示例,将所有标签的分数设置为0.0。

我确信这不会奏效。textcat并不是为了这样使用而设计的,即使你在训练中没有出现错误,我也不认为这个模型能够有效地训练。

相关内容

  • 没有找到相关文章

最新更新