对不属于任何标签的文本训练Spacy TextCategorizer

我开始尝试Spacy的TextCategorizer，并能够用几百个示例和每个示例的独占标签来训练模型。我的想法是将这个模型应用于文本块(逐句或逐段(，并为每个块获得一个标签。但很多区块实际上应该没有标签，因为它们不属于任何类别。我有两个想法：

或者还有其他方法吗？这是TextCategorizer可以做的事情吗？或者我可以尝试其他可能更好的模型吗？

听起来应该使用即将在3.1中发布的SpanClassifier。关于你的其他方法。。。

添加一个额外的标签other，并用这个标签训练不属于任何其他类别的示例。

这很好，除了"其他"；类别往往很难学习。

对于不属于任何其他类别的示例，将所有标签的分数设置为0.0。

我确信这不会奏效。textcat并不是为了这样使用而设计的，即使你在训练中没有出现错误，我也不认为这个模型能够有效地训练。

相关内容