将多个熊猫列添加到稀疏 CSR 矩阵中

所以我的问题是基于这个问题。

我有 Twitter 数据，其中我提取了 unigram 特征和正字特征的数量，例如灾难标记、问号、大写和小写。我想将正交特征堆叠成转换后的 unigram 特征。这是我的代码：

X_train, X_test, y_train, y_test = train_test_split(tweet_df[['tweets', 'exclamation', 'question', 'uppercase', 'lowercase']], tweet_df['class'], stratify=tweet_df['class'],
test_size = 0.2, random_state=0)
count_vect = CountVectorizer(ngram_range=(1,1))
X_train_gram = count_vect.fit_transform(X_train['tweets'])
tfidf = TfidfTransformer()
X_train_gram = tfidf.fit_transform(X_train_gram)
X_train_gram = hstack((X_train_gram,np.array(X_train['exclamation'])[:,None]))

这奏效了，但是我找不到一种方法将其余列(问题、大写、小写(合并到一行代码中的堆栈中。这是失败的尝试：

X_train_gram = hstack((X_train_gram,np.array(list(X_train['exclamation'], X_train['question'], X_train['uppercase'], X_train['lowercase']))[:,None])) #list expected at most 1 arguments, got 4
X_train_gram = hstack((X_train_gram,np.array(X_train[['exclamation', 'question', 'uppercase', 'lowercase']])[:,None])) #expected dimension <= 2 array or matrix
X_train_gram = hstack((X_train_gram,np.array(X_train[['exclamation', 'question', 'uppercase', 'lowercase']].values)[:,None])) #expected dimension <= 2 array or matrix

任何帮助表示赞赏。

您在列表语法和sparse.coo_matrix创建方面遇到问题。

np.array(X_train['exclamation'])[:,None])

数组Series为 1d，无变为 (n，1(

np.array(list(X_train['exclamation'], X_train['question'], X_train['uppercase'], X_train['lowercase']))[:,None]

这不是有效的列表语法：

In [327]: list(1,2,3,4)                                                         
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-327-e06d60ac583e> in <module>
----> 1 list(1,2,3,4)
TypeError: list() takes at most 1 argument (4 given)

下一个：

np.array(X_train[['exclamation', 'question', 'uppercase', 'lowercase']])[:,None])

使用多列，我们得到一个数据帧;它创建一个 2d 数组;添加None并得到一个 3d 数组：

In [328]: np.ones((2,3))[:,None].shape                                          
Out[328]: (2, 1, 3)

无法从 3D 数组制作coo矩阵。添加values不会改变事情。np.array(dataframe)与dataframe.values相同。

np.array(X_train[['exclamation', 'question', 'uppercase', 'lowercase']].values)[:,None]

这有机会工作：

hstack((X_train_gram, np.array(X_train[['exclamation', 'question', 'uppercase', 'lowercase']].values))

虽然我建议写

arr = np.array(X_train[['exclamation', 'question', 'uppercase', 'lowercase']].values
M = sparse.coo_matrix(arr)
sparse.hstack(( X_train_gram, M))

它更具可读性，如果出现问题，应该更容易调试。

相关内容

最新更新

热门标签：