当 gensim 为 tf-idf 模型创建字典时是否使用词干分析



我正在使用Gensim python工具包为文档构建tf-idf模型。所以我需要先为所有文档创建一个字典。但是,我发现Gensim在创建字典和语料库之前不使用词干。我说的对吗?

你是对的。Gensim除了将你给它的东西转换成不同的模型之外,没有做任何特别的事情。

以下是相关报价及其来源的链接:

处理文件的方式是如此多样,应用和 依赖于语言,我决定不受任何限制 接口。相反,文档由要素表示 从中提取,而不是通过其"表面"字符串形式:如何到达 功能由您决定。

从字符串到向量

我也在为同样的情况而苦苦挣扎。为了克服这个问题,我首先使用NLTK对文档进行填充,然后用gensim处理它。也许这可能是执行任务的一种更简单、更方便的方法。

最新更新