我正在尝试创建一个数据框架,其中行是故事列表向量化的结果,列是这些故事中的单词。
最终目标是预测每个故事作者的性别
vec = CountVectorizer()
X_train = vec.fit_transform(df_train["story"].tolist())
问题是-每次我试图运行以下行笔记本电脑崩溃,没有错误或任何东西…
pd.DataFrame(X_train.toarray(), columns=vec.get_feature_names())
这段代码在不同的练习中处理不同的数据…
X_train.toarray()
方法更改由CountVectorizer输出的备用矩阵的类型(仅包含非空条目)变成一个密集的数(全是0),这个数可能要大上百倍。您的错误很可能是内存错误。
我建议你只打印排名靠前的词汇表(例如前100个单词)。
n_words=100
print(
pd.DataFrame(
data=X_train[:, :n_words].toarray(),
columns=vec.get_feature_names()[:n_words]
)
)