在大型高维二进制数据集中找到高度相关变量的分组的一些经过验证的方法是可以在r中轻松实现的?我想找到可以解释的变量分组,因此我认为PCA不会是最好的方法。
library(Hmisc)
mtc <- mtcars[,2:8]
mtcn <- data.matrix(mtc)
clust <- varclus(mtcn)
clust
plot(clust)
?varclus :
使用Hoeffding d统计量,Pearson或Spearman相关性对变量进行层次群集分析,或观察结果的比例,这些观测值两种变量都作为相似性度量。可变聚类用于评估共线性,冗余,并将变量分离为可以作为单个变量评分的群集,从而导致数据降低。
对于二进制vraibles:
library(cluster)
data(animals)
ma <- mona(animals)
ma
plot(ma)
?mona :
返回一份列表,代表仅具有二进制变量的数据集的分区层次聚类。