小贝子编程

在scikit学习中计算n-gram时处理同形图

我正在使用TfIdfVectorizer来计算文本中的n-gram，但我需要首先对其进行旅名化。一种书面形式可以对应不同的引理，所以所有的引理都应该被计算在内。如何在scikit学习环境中处理它？我需要编写一个分析器并将其传递给TfIdfVectorizer吗？它是如何工作的？

有关将lemmatizer插入CountVectorizer的示例代码，请参阅开发版本的文档；TfidfVectorizer的用法类似。

(完全披露：这个例子确实是你写的。(

最新更新