如何将CountVectorizer应用于数据集的列



我已经能够在单个文本字符串中使用CountVectorizer,除我之外,所有数据集的长度都为80.000。如何将CountVectorizer应用于单列中的所有内容?我尝试过以下几种:

count_vect = CountVectorizer(lowercase=False)
cv = count_vect.fit_transform(df['Tokenized_Review'])

提前感谢大家!

我已经很久没有这样做了,但我可以想出一种方法。可能会有一个比我更优雅的解决方案。

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
for i, row in enumerate(df['Tokenized_Reivew']):
df.loc[i, 'vec_count]' = vectorizer.fit_transform(row)

我还没有测试,但我认为这会奏效。

感谢大家抽出时间。事实证明这会奏效:

df['Vectorized'] = 'default value'
vectorizer = CountVectorizer()
for i in range(0,len(df):
vectorizer.fit_transform(df['Tokenized_Review'][i])
df['Vectorized'][i] = vectorizer.vocabulary_

最新更新