我有一个数据集,它是分类数据集。我正在使用WEKA
软件进行功能选择。我使用CfsSubsetEval
作为Greedstepwise方法的属性评估器。我知道了这个链接,CFS使用Pearson correlation
来寻找数据集之间的强相关性。我还发现了如何使用这个链接来计算皮尔逊相关系数。根据链接,数据值需要是数值,以便进行评估那么WEKA如何对我的分类数据集进行评估
奇怪的结果是,在70个属性中,CFS只选择了10个属性。是因为分类数据集吗?此外,我的数据集是一个高度不平衡的数据集,其中不平衡比率为1:9(是:否(。
快速问题
如果你浏览链接,你可以找到声明the correlation coefficient to measure the strength and direction of the linear relationship between two numerical variables X and Y.
。现在我可以理解相关系数的强度,它在+1到-1之间变化,但方向如何?我怎么能拿到?我的意思是,变量不是向量,所以它不应该有方向。
CfsSubsetEval类中的correlate方法用于计算两个属性之间的相关性。它根据属性类型调用其他方法,我在这里链接了这些方法:
- 两个数字属性:num_num
- 数字/标称属性:num_nom2
- 两个标称属性:nomnom