当我们有CountVectorizer和Tfidfvectorizer时，NLP中的标记化和引理化的用例是什么

我正在学习NLP并完成；标记化、引理词性和其他基础知识。我从sklearn了解到CountVectorizer和Tfidfvectorizer，它们具有应用标记化、引理化的内部能力。

所以问题是：

什么时候我需要使用核心NLP活动来获取词汇，而不是使用CountVectorizer和Tfidfvectorizer？

标记化和Lematization是NLP中的基本构建块。使用标记化可以将字符串分解为标记/单词。标记化取决于文本的语言、文本的形成方式等。例如，标记化中文文本不同于英文文本，也不同于推特。因此，存在着不同类型的代币持有者。

CountVectorizer和Tfidfvectorizer用于对依赖于文本中的单词的文本块进行矢量化。因此，他们需要一种机制来标记单词，并且他们支持发送我们的标记器的机制(通过作为参数传递的可调用方法(。如果我们不传递任何标记器，它会使用在空间上分裂的天真方式。

请参阅CountVectorizer 的文档

标记化器：可调用，默认值=无

覆盖字符串标记化步骤，同时保留预处理和n-gram生成步骤。仅适用于分析器=="word"的情况。

因此，它们允许我们传入自己的令牌化器。Leamatization也是如此。

相关内容