了解机器学习，NLP:使用scikit-learn，python和NLTK的文本分类

我正在尝试使用本文中给出的示例 https://towardsdatascience.com/machine-learning-nlp-text-classification-using-scikit-learn-python-and-nltk-c52b92a7c73a 除了不使用本教程使用的 20newsgroups 数据集，而是尝试使用我自己的数据，该数据由/home/pi/train/中的文本文件组成，其中 train 下的每个子目录都是一个标签，如/home/pi/train/football//home/pi/train/BASKETBALL/。我正在尝试一次测试一个文档，方法是将其放入/home/pi/test/FOOTBALL/或/home/pi/test/BASKETBALL/并运行程序。

# -*- coding: utf-8 -*-
import sklearn
from pprint import pprint
from sklearn.datasets import load_files
docs_to_train = sklearn.datasets.load_files("/home/pi/train/", description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)
pprint(list(docs_to_train.target_names))
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(docs_to_train.data)
X_train_counts.shape
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
text_clf = Pipeline([('vect', CountVectorizer()), 
('tfidf', TfidfTransformer()),
('clf', MultinomialNB()),])
text_clf = text_clf.fit(docs_to_train.data, docs_to_train.target)
import numpy as np
docs_to_test = sklearn.datasets.load_files("/home/pi/test/", description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)
predicted = text_clf.predict(docs_to_test.data)
np.mean(predicted == docs_to_test.target)
pprint(np.mean(predicted == docs_to_test.target))

如果我将足球文本文档放在/home/pi/test/FOOTBALL/文件夹中并运行该程序，我会得到：

['FOOTBALL', 'BASKETBALL']
1.0

如果将关于足球的相同文档移动到/home/pi/test/BASKETBALL/文件夹中并运行我得到的程序：

['FOOTBALL', 'BASKETBALL']
0.0

这就是np.mean应该如何工作吗？有谁知道它想告诉我什么？

通读了 sklearn load_files上的文档，也许问题出在调用X_train_counts = count_vect.fit_transform(docs_to_train.data)。您可能需要探索 docs_to_train.data 对象的结构，以评估如何访问基础模块数据。不幸的是，这些文档在data的结构方面并不是那么有用：

类似字典的对象，有趣的属性是：数据，要学习的原始文本数据，或"文件名"，保存它的文件，"目标"，分类标签(整数索引(，"target_names"，标签的含义，以及"DESCR"，数据集的完整描述。

也可能是CountVectorizer()期望单个文件路径或 txt 对象，而不是填充了许多子数据类型的数据持有者。

相关内容

最新更新

热门标签：