Weka PCA中的排名告诉我们有关功能选择的什么?

我有一个数据集，有 31000 行，有 13 个属性。但是因为大多数是分类的，我不得不对这些属性使用 NominalToBinary，所以属性增长到 61。

我已经将数据采样到 18000 行，并在 Weka 中使用排名器应用 PCA。中心数据是假的，所以它应该为我规范化它。

这是我的结果：

0.945     1 -0.367Marial_Status= Married-civ-spouse-0.365Relationship= Husband+0.298Marial_Status= Never-married+0.244Age=0_23+0.232Gender= Female...

我知道排名就是方差。所以排名 1 是 94.5%？现在我在选择功能时遇到的问题是我怎么知道要保留哪些？这些属性中的大多数都是分类的，并且对于 PCA 更改为数字。因此，对于具有分类和数字的原始数据集，对于此输出，它对特征选择有何影响？

PCA假定数值数据。如果你对分类变量进行二进制编码，你基本上会拿起锤子，让你的数据符合你的模型假设。

处理分类特征的另一种方法是非线性特征变换，它将找到一种以合适的方式表示类别之间距离的方法。快速的谷歌搜索为我提供了分类主成分分析(CTPCA(。也许看看这个。

相关内容