我开始尝试Spacy的TextCategorizer,并能够用几百个示例和每个示例的独占标签来训练模型。我的想法是将这个模型应用于文本块(逐句或逐段(,并为每个块获得一个标签。但很多区块实际上应该没有标签,因为它们不属于任何类别。我有两个想法:
- 添加一个额外的标签
other
,并使用该标签训练不属于任何其他类别的示例 - 对于不属于任何其他类别的示例,将所有标签的分数设置为
0.0
或者还有其他方法吗?这是TextCategorizer可以做的事情吗?或者我可以尝试其他可能更好的模型吗?
听起来应该使用即将在3.1中发布的SpanClassifier。关于你的其他方法。。。
添加一个额外的标签other,并用这个标签训练不属于任何其他类别的示例。
这很好,除了"其他";类别往往很难学习。
对于不属于任何其他类别的示例,将所有标签的分数设置为0.0。
我确信这不会奏效。textcat并不是为了这样使用而设计的,即使你在训练中没有出现错误,我也不认为这个模型能够有效地训练。