在scikit学习中计算n-gram时处理同形图



我正在使用TfIdfVectorizer来计算文本中的n-gram,但我需要首先对其进行旅名化。一种书面形式可以对应不同的引理,所以所有的引理都应该被计算在内。如何在scikit学习环境中处理它?我需要编写一个分析器并将其传递给TfIdfVectorizer吗?它是如何工作的?

有关将lemmatizer插入CountVectorizer的示例代码,请参阅开发版本的文档;TfidfVectorizer的用法类似。

(完全披露:这个例子确实是你写的。(

相关内容

  • 没有找到相关文章

最新更新