我一直在尝试在大型语料库上执行tf-idf启发式。
我可以迭代阅读文档,并调用
vectorizer.fit()
在每次迭代中?这是只考虑当前的迭代,还是记住以前的迭代?
谢谢!
问题的解决方案将取决于您的特定应用程序。你可以考虑gensim的tfidf实现,它更有效,不需要像这篇文章解释的那样将整个语料库保存在内存中。
我一直在尝试在大型语料库上执行tf-idf启发式。
我可以迭代阅读文档,并调用
vectorizer.fit()
在每次迭代中?这是只考虑当前的迭代,还是记住以前的迭代?
谢谢!
问题的解决方案将取决于您的特定应用程序。你可以考虑gensim的tfidf实现,它更有效,不需要像这篇文章解释的那样将整个语料库保存在内存中。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium