如何告诉scikit-learn矢量化器使用特定的功能



我有一组功能——手工拾取。并非所有词都是单个单词;其中一些是双元组,另一些是三元组。我想对我的文本进行建模 - 这些文本以原始文本的形式明确基于这些功能提供。我怎样才能在 sklearn 中做到这一点?到目前为止,这就是我定义矢量化器的方式。

def initialize():
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer(ngram_range=(1, 3))
    return vectorizer

CountVectorizerTfIdfVectorizer允许您指定要使用的词汇表。将它们作为关键字参数传递给构造函数vocabulary。引用文档:

词汇:映射或可迭代,可选

映射(例如,字典),其中键是项,值是 特征矩阵中的索引,或可迭代的超项。如果不是 给定,词汇表由输入文档确定。

相关内容

最新更新