我有一个包含许多变量的数据集,包括 26 个变量,所有变量的值范围为 1-12。我想删除至少 80% 的值相同的所有行(超过 21 个 1,或超过 21 个 2 等(。我很难想出在 R 中执行此操作的方法,并且非常感谢有关如何解决此问题的一些想法!
当我运行
out <- df1[apply(df1, 1, function(x) mean(x == Mode(x)) <= 0.8),]
代码在一个组中的变量子集上,另一个组中变量的值都变为 NA。
以下是 60 行数据集,其中包含来自所有三个条件的 5 个问题:https://nofile.io/f/gBWymjYmQ2O/dataset
我的预期输出是 df1(它有 100+ 个变量(,删除了对 26 个感兴趣的变量具有超过 80% 相同响应的行。
我们可以遍历数据集的行,获取值的频率,检查最高频率值是否不超过 80% 以创建逻辑vector
并基于此删除行
Mode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
out <- df1[apply(df1, 1, function(x) mean(x == Mode(x)) <= 0.8),]
更新
根据 OP 的数据集,行中有 NA,有些行包含所有 NA。 我们可以更改代码以删除具有所有 NA 且具有 80% 相同值的行
Mode <- function(x) {
ux <- unique(x[!is.na(x)])
ux[which.max(tabulate(match(x, ux)))]
}
df1[ apply(df1, 1, function(x) mean(x == Mode(x), na.rm = TRUE) <= 0.8 & !all(is.na(x))),]
数据
set.seed(24)
df1 <- as.data.frame(matrix(sample(1:12, 26 *20, replace = TRUE), ncol = 26))
df1[c(1, 3, 7),1:21] <- 5