性能:提高朴素贝叶斯分类器的准确性

我正在研究一个简单的朴素贝叶斯文本分类器，它使用棕色语料库进行测试和训练数据。到目前为止，使用没有任何预处理的简单方法时，我的准确率为 53%。为了改进我的分类器，我添加了一些预处理(停用词、词形还原、词干提取、pos-tagging(，但我的表现似乎变差了 (11%(。我做错了什么？我只是从Python开始，所以我感谢我能得到的任何帮助。

import nltk, random
from nltk.corpus import brown, stopwords
from nltk.stem.porter import PorterStemmer
documents = [(list(brown.words(fileid)), category)
for category in brown.categories()
for fileid in brown.fileids(category)]
random.shuffle(documents)
stop = set(stopwords.words('english'))

without_stop = [w for w in brown.words() if w not in stop] 
lowercase = [w.lower() for w in without_stop] # lowercase

porter = PorterStemmer()
stemmed = [porter.stem(w) for w in lowercase] 
wnl = nltk.WordNetLemmatizer()
lemmatized = [wnl.lemmatize(w) for w in stemmed] 
tagged = nltk.pos_tag(lemmatized) 

all_words = nltk.FreqDist(tagged) 
word_features = list(all_words.keys())[:2000]
def document_features(document):
document_words = set(document)
features = {}
for word in word_features:
features['contains({})'.format(word)] = (word in document_words)
return features

featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))

也许我错过了一些东西，但我无法解决您试图解决的分类问题。

您随机排列文档，然后在使用来自词干、pos-标记等的大量附加数据丰富每个文档后，将这些文档拆分为测试和训练集。

分裂如何遵循类之间的划分？您在纯文本上获得的结果更好，因为问题空间的排名要小得多(没有其他功能爆炸问题空间的大小(。因此，对于相对较小的布朗语料库，分类器可以拆分问题。

陈述分类问题并使其对齐要素。然后编码。

相关内容

最新更新

热门标签：