Weka PCA中的排名告诉我们有关功能选择的什么?



我有一个数据集,有 31000 行,有 13 个属性。但是因为大多数是分类的,我不得不对这些属性使用 NominalToBinary,所以属性增长到 61。

我已经将数据采样到 18000 行,并在 Weka 中使用排名器应用 PCA。 中心数据是假的,所以它应该为我规范化它。

这是我的结果:

0.945     1 -0.367Marial_Status= Married-civ-spouse-0.365Relationship= Husband+0.298Marial_Status= Never-married+0.244Age=0_23+0.232Gender= Female...

我知道排名就是方差。所以排名 1 是 94.5%?现在我在选择功能时遇到的问题是我怎么知道要保留哪些?这些属性中的大多数都是分类的,并且对于 PCA 更改为数字。因此,对于具有分类和数字的原始数据集,对于此输出,它对特征选择有何影响?

PCA假定数值数据。如果你对分类变量进行二进制编码,你基本上会拿起锤子,让你的数据符合你的模型假设。

处理分类特征的另一种方法是非线性特征变换,它将找到一种以合适的方式表示类别之间距离的方法。快速的谷歌搜索为我提供了分类主成分分析(CTPCA(。也许看看这个。

最新更新