小贝子编程

Jupyter笔记本在尝试创建df时崩溃

我正在尝试创建一个数据框架，其中行是故事列表向量化的结果，列是这些故事中的单词。

最终目标是预测每个故事作者的性别

vec = CountVectorizer()
X_train = vec.fit_transform(df_train["story"].tolist())

问题是-每次我试图运行以下行笔记本电脑崩溃，没有错误或任何东西…

pd.DataFrame(X_train.toarray(), columns=vec.get_feature_names())

这段代码在不同的练习中处理不同的数据…

X_train.toarray()方法更改由CountVectorizer输出的备用矩阵的类型(仅包含非空条目)变成一个密集的数(全是0)，这个数可能要大上百倍。您的错误很可能是内存错误。

我建议你只打印排名靠前的词汇表(例如前100个单词)。

n_words=100
print(
pd.DataFrame(
data=X_train[:, :n_words].toarray(), 
columns=vec.get_feature_names()[:n_words]
)
)

相关内容