可靠地纠正损坏的单词

我有一个文本作为 in put， wh ere ther e are occassi on aly brok en wor ds.

是否有NLTK或类似函数可以将输出返回为

I have a text as an input, where there are occassionaly broken words.？

您不会在一个函数中获得所有内容，但您可以在 Pyenchant 库的帮助下检查单词的拼写。您可以执行以下步骤：

是的，我不会说它的性能效率很高，因为pyEnchant词典包含许多看起来不合法的单词，但在某些情况下可以工作。

上面的方法是使用Levenshtein距离，也可以使用Ngrams，jaccard系数进行拼写更正。

我已经实现了这个任务，你可以检查我的gitHub链接(https://github.com/rameshjesswani/Semantic-Textual-Similarity/blob/master/nlp_basics/nltk/string_similarity.ipynb(

相关内容