MATLAB:具有单变量高斯的朴素贝叶斯



我正在尝试使用UCI机器学习团队发布的数据集来实现Naive Bayes分类器。我是机器学习的新手,试图理解用于工作相关问题的技术,所以我认为最好先理解理论。

我使用的是pima数据集(链接到数据-UCI-ML),我的目标是为K类问题构建Naive Bayes单变量高斯分类器(数据仅在K=2时存在)。我已经对数据进行了拆分,并计算了每类的平均值、标准差和先验值,但在这之后,我有点卡住了,因为我不确定在这之后我应该做什么以及如何做。我有一种感觉,我应该计算后验概率,

这是我的代码,我使用百分比作为向量,因为我想看到当我将训练数据大小从80:20拆分增加时的行为。基本上,如果你通过了[10 20 30 40],它将从80:20开始计算这个百分比,并将80%中的10%用作训练。

function[classMean] = naivebayes(file, iter, percent)
dm = load(file);
for i=1:iter
idx = randperm(size(dm.data,1))
%Using same idx for data and labels
shuffledMatrix_data = dm.data(idx,:);
shuffledMatrix_label = dm.labels(idx,:);
percent_data_80 = round((0.8) * length(shuffledMatrix_data));
%Doing 80-20 split
train = shuffledMatrix_data(1:percent_data_80,:);
test = shuffledMatrix_data(percent_data_80+1:length(shuffledMatrix_data),:);
train_labels = shuffledMatrix_label(1:percent_data_80,:)
test_labels = shuffledMatrix_data(percent_data_80+1:length(shuffledMatrix_data),:);
%Getting the array of percents
for pRows = 1:length(percent)
percentOfRows = round((percent(pRows)/100) * length(train));
new_train = train(1:percentOfRows,:)
new_trin_label = shuffledMatrix_label(1:percentOfRows)
%get unique labels in training
numClasses = size(unique(new_trin_label),1)
classMean = zeros(numClasses,size(new_train,2));
for kclass=1:numClasses
classMean(kclass,:) = mean(new_train(new_trin_label == kclass,:))
std(new_train(new_trin_label == kclass,:))
priorClassforK = length(new_train(new_trin_label == kclass))/length(new_train)
priorClassforK_1 = 1 - priorClassforK
end
end
end
end

首先,根据频率计数计算每个类标签的概率。对于给定的数据样本和数据集中的给定类,计算每个特征的概率。之后,将样本中所有特征的条件概率彼此相乘,并乘以所考虑的类标签的概率。最后,比较所有类标签的值,然后选择具有最大概率的类的标签(贝叶斯分类规则)。

为了计算条件概率,可以简单地使用正态分布函数。

最新更新