我想知道-如果我正在做文本分类(使用SpaCy,使用他们的textcat-multi)组件(例如),如果一个NER组件先于它进入管道,这些结果会得到改善吗?我的想法是:如果像"高级Javascript开发人员"这样的句子;会被归类为,比如说,"a";(或任何其他类别),如果那么Javascript
将被标记为"编程语言";实体或类似的,文本猫是否会选择它,并使用它来说明,例如,像"Python工程师"这样的句子,由于该实体而相似(并且也将被分类为";a ")?假设Python
也是一种"编程语言";当然是实体。
我对它的理解是,textcat组件将采用tok2vec向量并在那里寻找相似性,但是如果使用NER发现的实体相似,这些向量在一个或多个维度上是否相似?我想得对吗?如果有可能的话,SpaCy会怎么做呢?
仅仅在管道中添加一个NER组件不会改善事情,不。
如果你添加一个NER组件,并与textcat组件联合训练,你可以得到共享的表示,这在理论上是有帮助的。但实际上,这似乎不太可能起作用。
以前在space论坛上有人问过这个问题,在这里我详细地回答了这个问题。基本上,尽管我能找到的关于使用NER特征进行文本分类的有限研究表明它没有多大帮助。