如何在 python 中对大数据集(csv 文件)中的单个列运行 TF-IDF?



我正在尝试创建一个运行大数据集的TF-IDF的python程序。它有多列和几行数据。我的问题是我不知道如何将其限制为仅在标题为"评论"的列之一上运行。

您可以取出所需列的值并对其运行 TF-IDF:

from sklearn.feature_extraction.text import TfidfVectorizer
doc=df['Comments'].values #df is your dataframe
tf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tf.fit_transform(doc)

希望对您有所帮助。

最新更新