我正在使用Gensim python工具包为文档构建tf-idf模型。所以我需要先为所有文档创建一个字典。但是,我发现Gensim在创建字典和语料库之前不使用词干。我说的对吗?
你是对的。Gensim除了将你给它的东西转换成不同的模型之外,没有做任何特别的事情。
以下是相关报价及其来源的链接:
处理文件的方式是如此多样,应用和 依赖于语言,我决定不受任何限制 接口。相反,文档由要素表示 从中提取,而不是通过其"表面"字符串形式:如何到达 功能由您决定。
从字符串到向量
我也在为同样的情况而苦苦挣扎。为了克服这个问题,我首先使用NLTK
对文档进行填充,然后用gensim
处理它。也许这可能是执行任务的一种更简单、更方便的方法。