我正在使用Sklearn中的CountVectorizer
工作,我想知道如何访问或提取文件编号,这些我尝试的内容像从外面看: (1 ,12 ) 1
我只需要一个表示文件编号
from sklearn.feature_extraction.text import CountVectorizer
vectorizer=CountVectorizer()
string1="these is my first statment in vectorizer"
string2="hello every one i like the place here"
string3="i am going to school every day day like the student in my school"
email_list=[string1,string2,string3]
bagofword=vectorizer.fit(email_list)
bagofword=vectorizer.transform(email_list)
print(bagofword)
output:
(0, 3) 1
(0, 7) 1
(0, 8) 1
(0, 10) 1
(0, 14) 1
(1, 12) 1
(1, 16) 1
(2, 0) 1
(2, 1) 2
您可以在稀疏数组的列上迭代,
features_map = [col.indices.tolist() for col in bagofword.T]
并获取包含功能k
的所有文档的列表,只需获取此列表的元素k
即可。
例如, features_map[2] == [1, 2]
表示功能编号2,在文档1和2中存在。