为CountVectorizer矩阵添加附加功能

我遇到了一个问题，我必须向scikit learn的CountVectorizer函数创建的令牌计数列表添加一个附加功能（平均单词长度）。假设我有以下代码：

#list of tweets
texts = [(list of tweets)]
#list of average word length of every tweet
average_lengths = word_length(tweets)
#tokenizer
count_vect = CountVectorizer(analyzer = 'word', ngram_range = (1,1))
x_counts = count_vect.fit_transform(texts)

每个实例的格式应该是（标记，平均单词长度）。我最初的想法是简单地使用zip函数将两个列表连接起来，如下所示：

x = zip(x_counts, average_lengths)

但当我试图适应我的模型时，我遇到了一个错误：

ValueError: setting an array element with a sequence.

有人知道如何解决这个问题吗？

您可以像本文中那样编写自己的转换器，为每条推文提供平均单词长度，并使用FeatureUnion:

vectorizer = FeatureUnion([
        ('cv', CountVectorizer(analyzer = 'word', ngram_range = (1,1))),
        ('av_len', AverageLenVectizer(...))
    ])

由于CountVectorizer返回一个稀疏矩阵，因此需要对其执行稀疏矩阵运算。您可以使用scipy.sparse中的hstack来执行此操作。

例如（取自scipy的文档）：

from scipy.sparse import coo_matrix, hstack
A = coo_matrix([[1, 2], [3, 4]])
B = coo_matrix([[5], [6]])
hstack([A,B]).toarray()
array([[1, 2, 5],
   [3, 4, 6]])

相关内容

最新更新

热门标签：