将会预测偶数值K的KNN类别,并在领带的情况下进行



KNN (K nearest neighbour)分类器中,如果选择了k值的偶数值,那么多数投票规则或欧几里得距离规则中的预测是什么。例如,如果有3个类说

  1. iris-setosa
  2. iris-versicolor
  3. iris-virginica

现在说我们有n_neighbors = 6的价值。对于多数投票规则,有很多机会获得领带的结果吗?在大多数可视化中,白色表示该区域表示无法做出决定。但是,领带的实际预测是什么。这个问题很难模拟,因此不容易模仿概念上的问题。

n_neighbors的奇数还可以解决/减少此问题吗?您认为欧几里得/曼哈顿距离不是使用简单的多数投票,而是可以更好地处理这一点。但是,Sklearn文档根本没有提及这一点。

挖掘后,我有一些很好的答案。首先,让我告诉您,如@Anasvaf这样的某些用户所述,您应该只使用奇数来进行二进制分类。这绝对是不正确的。首先,当我们以多数投票对二进制分类进行投票时,在某些领带上,它完全取决于实际库来选择操作。例如,在Scikit-learn中,它采用了变量的模式。这意味着,如果在培训数据集中,类别1的数据点数量更多,则1将在TIE上使用。但是有一个更好的解决方案。

我们可以使用加权knn而不是普通knn。在称重的KNN中,如果有领带,我们可以看到1个标记的数据点的总距离和0个标记点。如果1的总距离是更多,则类是0,反之亦然。

也有其他好技术可以在KNN中处理领带,但是说实话,KNN并不是一个很好的学习算法,特别是由于其在大数据集中的时间复杂性。

由于您使用的是多数投票,因此,最近的邻居的奇数值选择了当两个类标签达到相同的分数时解决问题。

相关内容

  • 没有找到相关文章

最新更新