使用NLTK(5400)和Spacy(5300)计算句子给出了不同的答案.需要知道原因吗



我是NLP的新手。使用Spacy和NLTK来计算JSON文件中的句子,但这两个答案有很大的差异。我以为答案会是一样的。有谁能告诉我吗??或者任何能帮助我的网络链接。拜托,我在这里很困惑

句子分割&标记化是NLP子任务,每个NLP库可能有不同的实现,从而导致不同的错误配置文件。

即使在spaCy库中,也有不同的方法:通过使用依赖解析器可以获得最佳结果,但也存在一个更简单的基于规则的sentencizer组件,它更快,但通常会犯更多错误(此处为文档(。

因为没有一个实现是100%完美的,你会发现不同方法之间的差异;不同的库。你能做的是打印出方法不一致的情况,手动检查这些情况,并了解哪种方法最适合你的特定领域;文本类型。

相关内容

最新更新