Scikit-learn tfidf vectorizer in minibatches?



我一直在尝试在大型语料库上执行tf-idf启发式。

我可以迭代阅读文档,并调用

vectorizer.fit()

在每次迭代中?这是只考虑当前的迭代,还是记住以前的迭代?

谢谢!

问题的解决方案将取决于您的特定应用程序。你可以考虑gensim的tfidf实现,它更有效,不需要像这篇文章解释的那样将整个语料库保存在内存中。

相关内容

  • 没有找到相关文章

最新更新