当我们有CountVectorizer和Tfidfvectorizer时,NLP中的标记化和引理化的用例是什么



我正在学习NLP并完成;标记化、引理词性和其他基础知识。我从sklearn了解到CountVectorizer和Tfidfvectorizer,它们具有应用标记化、引理化的内部能力。

所以问题是:

什么时候我需要使用核心NLP活动来获取词汇,而不是使用CountVectorizer和Tfidfvectorizer?

标记化和Lematization是NLP中的基本构建块。使用标记化可以将字符串分解为标记/单词。标记化取决于文本的语言、文本的形成方式等。例如,标记化中文文本不同于英文文本,也不同于推特。因此,存在着不同类型的代币持有者。

CountVectorizer和Tfidfvectorizer用于对依赖于文本中的单词的文本块进行矢量化。因此,他们需要一种机制来标记单词,并且他们支持发送我们的标记器的机制(通过作为参数传递的可调用方法(。如果我们不传递任何标记器,它会使用在空间上分裂的天真方式。

请参阅CountVectorizer 的文档

标记化器:可调用,默认值=无

覆盖字符串标记化步骤,同时保留预处理和n-gram生成步骤。仅适用于分析器=="word"的情况。

因此,它们允许我们传入自己的令牌化器。Leamatization也是如此。

最新更新