NLTK(或其他)返回 n 个最佳标记序列的词性标记器



我需要一部分词性标记器,它不仅返回给定句子的最佳标签序列,而且返回n个最佳标签序列。 因此,对于"时间像箭一样飞逝",它可以返回DT NN中的NN VBZ和NN NNS VBP DT NN,例如,根据其概率排序。 我需要使用我自己的标签集和句子示例来训练标记器,并且我想要一个允许设计句子不同特征的标记器。 如果其中一个 nltk 标记器具有此功能,那就太好了,但是我可以与我的 Python 代码交互的任何标记器都可以。 提前感谢您的任何建议。

我建议看看spaCy。据我所知,默认情况下它不允许您返回 top-n 标记,但它支持创建自定义管道组件。

Github上还有一个问题,确切地讨论了这个问题,并且有一些关于如何相对快速地实现它的建议。

最新更新