如何将CountVectorizer应用于数据集的列

我已经能够在单个文本字符串中使用CountVectorizer，除我之外，所有数据集的长度都为80.000。如何将CountVectorizer应用于单列中的所有内容？我尝试过以下几种：

count_vect = CountVectorizer(lowercase=False)
cv = count_vect.fit_transform(df['Tokenized_Review'])

提前感谢大家！

我已经很久没有这样做了，但我可以想出一种方法。可能会有一个比我更优雅的解决方案。

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
for i, row in enumerate(df['Tokenized_Reivew']):
df.loc[i, 'vec_count]' = vectorizer.fit_transform(row)

我还没有测试，但我认为这会奏效。

感谢大家抽出时间。事实证明这会奏效：

df['Vectorized'] = 'default value'
vectorizer = CountVectorizer()
for i in range(0,len(df):
vectorizer.fit_transform(df['Tokenized_Review'][i])
df['Vectorized'][i] = vectorizer.vocabulary_

相关内容

最新更新

热门标签：