用scikit理解accuracy_score-learn用我自己的语料库



>假设我都准备好用scikit learn做一些文本分类SVC。首先,我对语料库进行了矢量化处理,将数据拆分为测试和训练集,然后将标签设置为训练集。现在我想获得分类的准确性。

从文档中,我阅读了以下内容:

>>> import numpy as np
>>> from sklearn.metrics import accuracy_score
>>> y_pred = [0, 2, 1, 3]
>>> y_true = [0, 1, 2, 3]
>>> accuracy_score(y_true, y_pred)
0.5
>>> accuracy_score(y_true, y_pred, normalize=False)
2

问题是我不明白什么是:y_pred = [0, 2, 1, 3]y_true = [0, 1, 2, 3],以及一旦我自己语料库的分类测试集,我如何"达到"或获得这些值。任何人都可以帮助我解决这个问题吗?

让我们举个例子:

训练数据:

Pošto je EULEX obećao da će obaviti istragu o prošlosedmičnom izbijanju nasilja na sjeveru Kosova, taj incident predstavlja još jedan ispit kapaciteta misije da doprinese jačanju vladavine prava.
De todas as provações que teve de suplantar ao longo da vida, qual foi a mais difícil? O início. Qualquer começo apresenta dificuldades que parecem intransponíveis. Mas tive sempre a minha mãe do meu lado. Foi ela quem me ajudou a encontrar forças para enfrentar as situações mais decepcionantes, negativas, as que me punham mesmo furiosa.
Al parecer, Andrea Guasch pone que una relación a distancia es muy difícil de llevar como excusa. Algo con lo que, por lo visto, Alex Lequio no está nada de acuerdo. ¿O es que más bien ya ha conseguido la fama que andaba buscando?
Vo väčšine golfových rezortov ide o veľký komplex niekoľkých ihrísk blízko pri sebe spojených s hotelmi a ďalšími možnosťami trávenia voľného času – nie vždy sú manželky či deti nadšenými golfistami, a tak potrebujú iný druh vyžitia. Zaujímavé kombinácie ponúkajú aj rakúske, švajčiarske či talianske Alpy, kde sa dá v zime lyžovať a v lete hrať golf pod vysokými alpskými končiarmi.

测试数据:

Por ello, ha insistido en que Europa tiene que darle un toque de atención porque Portugal esta incumpliendo la directiva del establecimiento del peaje
Estima-se que o mercado homossexual só na Cidade do México movimente cerca de oito mil milhões de dólares, aproximadamente seis mil milhões de euros

import codecs, re, time
from itertools import chain
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
trainfile = 'train.txt'
testfile = 'test.txt'
# Vectorizing data.
train = []
word_vectorizer = CountVectorizer(analyzer='word')
trainset = word_vectorizer.fit_transform(codecs.open(trainfile,'r','utf8'))
tags = ['bs','pt','es','sr']
# Training NB
mnb = MultinomialNB()
mnb.fit(trainset, tags)
# Tagging the documents
codecs.open(testfile,'r','utf8')
testset = word_vectorizer.transform(codecs.open(testfile,'r','utf8'))
results = mnb.predict(testset)
print results

我希望这对你有所帮助。你问:

问题是我不明白是什么:y_pred = [0, 2, 1, 3] 和 y_true = [0, 1, 2, 3] 以及如何"达到"或获取这些值 一旦我分类测试集我自己的语料库。有人可以帮助我吗 有这个问题?。

答:如您所知,分类器应该将数据分类到不同的类。在上面的示例中,假设的数据有四个不同的类,这些类用标签 0、1、2 和 3 指定。因此,如果我们的数据是关于对单色图像中的颜色进行分类,则标签将表示以下内容:蓝色,红色,黄色和绿色。上面的例子显示的另一个问题是数据中只有四个 smaples。例如,他们只有四张图像,y_true显示它们的真实标签(或者我们称之为地面事实(。 y_pred显示分类器的预测。现在,如果我们比较两个列表,如果两个列表相同,我们的准确率为 100%,但是,在这种情况下,您会看到两个标签预测的标签与其基本事实不匹配。

现在,在您的示例代码中,您已经编写了:

tags = ['SPAM','HAM','another_class']

就像我上面解释的那样,这意味着首先,您的数据由 3 个不同的类组成; seconly,它显示您的数据仅由 3 个样本组成(这可能不是您真正想要的(。因此,此列表的长度应等于训练数据中的样本数。如果您有其他问题,请告诉我。

您的示例中有一个小错误。该行:

tags = ['SPAM','HAM','another_class']

是错误的。语料库中的每个示例(句子/文档(都应该有一个标签。所以tags不应该是 3 而是你trainset的长度。

这同样适用于测试集。您应该有一个与 testset 长度相同的可变test_tags。这些标签通常是文件"test.txt"中的一列,但您可能会从其他地方获得它。这将是你的y_true.

当你在测试集上预测时,你会得到一个与testset长度相同的向量:

results = mnb.predict(testset)

即测试集中每个示例的标签预测。

这是你的y_pred.我省略了一些与多类与单类案例相关的细节(另一个问题的材料(,但这应该回答你的问题。

相关内容

  • 没有找到相关文章

最新更新