如何从单词袋中返回文件编号



我正在使用Sklearn中的CountVectorizer工作,我想知道如何访问或提取文件编号,这些我尝试的内容像从外面看: (1 ,12 ) 1我只需要一个表示文件编号

的1
from sklearn.feature_extraction.text import CountVectorizer
vectorizer=CountVectorizer()
string1="these is my first statment in vectorizer"
string2="hello every one i like the place here"
string3="i am going to school every day day like the student in my school"
email_list=[string1,string2,string3]
bagofword=vectorizer.fit(email_list)
bagofword=vectorizer.transform(email_list)
print(bagofword)
output:
(0, 3)  1
(0, 7)  1
(0, 8)  1
(0, 10) 1
(0, 14) 1
(1, 12) 1
(1, 16) 1
(2, 0)  1
(2, 1)  2

您可以在稀疏数组的列上迭代,

features_map = [col.indices.tolist() for col in bagofword.T]

并获取包含功能k的所有文档的列表,只需获取此列表的元素k即可。

例如, features_map[2] == [1, 2]表示功能编号2,在文档1和2中存在。

相关内容

  • 没有找到相关文章

最新更新