从特征集中集成特征选择



我有一个关于集成特征选择的问题。

我的数据集由1000个样本组成,约有30000个特征,它们被分为标签A或标签B。我想做的是挑选一些可以有效地对标签进行分类的特征。

我使用了三种类型的方法,单变量方法(Pearson系数)、lasso回归和SVM-RFE(递归特征消除),所以我从中得到了三个特征集。我使用python scikit learn进行功能选择。

然后我想到了集合特征选择方法,因为特征的大小太大了。在这种情况下,如何制作具有3个特征集的集成子集?

我能想到的是,取集合的并集,再次使用套索回归或SVM-RFE,或者只取集合的交集。

有人能给个主意吗?

我想你做什么取决于你以后想如何使用这些功能。如果你的目标是"有效地对标签进行分类",你可以做的一件事是使用你的分类算法(即SVC、Lasso等)作为包装,并通过交叉验证进行递归特征消除(RFE)。

您可以从前面三种方法中的特征的并集开始,也可以从想要拟合的给定类型的模型开始,因为示例的数量很少。无论如何,我认为在你的情况下,选择特征的最佳方式是选择那些优化你目标的特征,这似乎是分类的准确性,因此是简历提案。

最新更新