在旋转森林方法中,weka对分类属性做了什么



我有一个具有数值和分类属性的数据集。我正在韦卡按轮作森林进行分类。我知道旋转森林只适用于数值属性,因为它计算PCA和其他东西。

我的期望是我们可以忽略分类属性,但当我用整个数据集进行分类时和当从数据集中删除分类属性时,性能结果不同。

在旋转森林法中,weka对范畴属性做了什么?

在旋转林方法中,weka对分类属性做了什么

我不知道。

但是,明确地转换你的属性怎么样?

在Weka中,"范畴属性"被称为"名义属性"。

预处理面板中,您可以应用几个替代过滤器来完成任务。

应用无监督属性过滤器"NominalToBinary",并查看它如何更改属性(使用二进制伪变量创建列)。

或者,您可以应用监督属性过滤器"NominalToBinary",该过滤器以稍微不同的方式转换属性(请查看)。

另一种选择是尝试无监督属性过滤器"MakeIndicator"(转换为数字,但将所有类别聚合为0,但编码为数字1的类别除外)。

选择哪些替代方案?这取决于您的要求。

轮换森林类似于随机森林,可以与分类数据一起使用。它们使用在特征空间的子集上训练的基本分类器的集合。在Weka中,默认的基本分类器是J48决策树,它可以处理分类数据,但是,您可以使用几乎任何基本分类器。使用特征空间的自举采样与PCA相结合来获得特征子集。在这种情况下,主成分分析不用于降维,它用于为特征空间选择最佳旋转轴,并且不降维,因此主成分分析和分类数据的常见问题并不真正适用于这种情况。Weka还允许您更改PCA的主滤波器,因此您可以应用其他方法来选择可能更适合标称数据的最佳旋转轴。

如果您的分类属性被归类为数字,Weka将把它们视为数字属性。

最新更新