我有一组功能——手工拾取。并非所有词都是单个单词;其中一些是双元组,另一些是三元组。我想对我的文本进行建模 - 这些文本以原始文本的形式明确基于这些功能提供。我怎样才能在 sklearn 中做到这一点?到目前为止,这就是我定义矢量化器的方式。
def initialize():
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(ngram_range=(1, 3))
return vectorizer
CountVectorizer
和TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数传递给构造函数vocabulary
。引用文档:
词汇:映射或可迭代,可选
映射(例如,字典),其中键是项,值是 特征矩阵中的索引,或可迭代的超项。如果不是 给定,词汇表由输入文档确定。