基于中文文本的TF-IDF算法



我正在对中文文本进行TF-IDF,并搜索文本中使用的前10个单词
当我得到前10个单词时,我有一些没有意义的单词,比如";成为&"表示"以及其他
有没有什么方法只能得到有意义的单词
我正在使用";揭吧"把中文句子剪成

类似于"成为&"表示"就是我们所说的停止语。在许多情况下,它们是常用的单词,在句子中几乎没有意义,比如";a";,以及";";用英语

在执行分析之前,有时有必要删除这些停止语,尤其是对于TF-IDF,因为它可能会导致您所看到的无意义的结果。

Jieba似乎不包括删除停止词的功能,但genediazjr为汉语收集了一份相当全面的停止词列表。在TF-IDF分析之前,您可以导入它并从原始文本中删除这些停止词。

最新更新