小贝子编程

使用NLTK(5400)和Spacy(5300)计算句子给出了不同的答案.需要知道原因吗

本文关键字：答案 Spacy 5400 NLTK 5300 计算使用句子 python nlp nltk spacy sentence-similarity
更新时间 : 2023-09-20
英文 : Counting Sentences using NLTK (5400) and Spacy(5300) gives different answers. Need to know why?

我是NLP的新手。使用Spacy和NLTK来计算JSON文件中的句子，但这两个答案有很大的差异。我以为答案会是一样的。有谁能告诉我吗？？或者任何能帮助我的网络链接。拜托，我在这里很困惑

句子分割&标记化是NLP子任务，每个NLP库可能有不同的实现，从而导致不同的错误配置文件。

即使在spaCy库中，也有不同的方法：通过使用依赖解析器可以获得最佳结果，但也存在一个更简单的基于规则的sentencizer组件，它更快，但通常会犯更多错误(此处为文档(。

因为没有一个实现是100%完美的，你会发现不同方法之间的差异；不同的库。你能做的是打印出方法不一致的情况，手动检查这些情况，并了解哪种方法最适合你的特定领域；文本类型。

相关内容