我正在使用TfIdfVectorizer来计算文本中的n-gram,但我需要首先对其进行旅名化。一种书面形式可以对应不同的引理,所以所有的引理都应该被计算在内。如何在scikit学习环境中处理它?我需要编写一个分析器并将其传递给TfIdfVectorizer吗?它是如何工作的?
有关将lemmatizer插入CountVectorizer
的示例代码,请参阅开发版本的文档;TfidfVectorizer
的用法类似。
(完全披露:这个例子确实是你写的。(