我有一个类似规模问题的数据框架。所有的问题都有1-10的量表,但为了进行一些分析,我想将量表重新编码为1-5。
所以,我想重新编码我的数据帧的大部分变量,不包括标识变量。我尝试了几件事,也查看了过去的线程,但我找不到解决方案,我总是会出错。
由于我是R的新手,我相信这只是一个新手的错误,但我希望你能帮助我。
这是代码:
z <- data.frame (ID = c(23,24,25,26,27),
Project = c("EA","EA","PLA","PLA","PLA"),
Q1 = c(3,9,8,5,10),
Q2 = c(1,2,6,7,9),
Q3 = c(4,8,6,6,10))
recode_z <- z[,3:5]
p3[,recode_p3] <- as.data.frame(lapply(p3[, recode_p3], function(x)ifelse(x == 2, 1),
ifelse(x == 3, 2),
ifelse(x== 4, 2),
ifelse(x== 5, 3),
ifelse(x== 6, 3),
ifelse(x== 7, 4),
ifelse(x== 8, 4),
ifelse(x== 9, 5),
ifelse(x== 10, 5,x)))
我得到这个错误:
Error in .subset(x, j) : invalid subscript type 'list'
你能发现错误吗?提前谢谢!
ifelse
既需要yes条件,也需要no条件。因此,您可以将代码更改为:
z[, 3:5] <- lapply(z[, 3:5], function(x)ifelse(x == 2, 1),
ifelse(x == 3, 2,
ifelse(x== 4, 2,
ifelse(x== 5, 3,
ifelse(x== 6, 3,
ifelse(x== 7, 4,
ifelse(x== 8, 4,
ifelse(x== 9, 5,
ifelse(x== 10, 5,x)))))))))
但是,您可以将每个条件组合为一个条件,并使用%in%
检查多个值,而不是单独编写每个条件。此外,使用dplyr::case_when
可能有助于提高代码的可读性。
z[,3:5] <- lapply(z[, 3:5], function(x) {
dplyr::case_when(x == 2 ~ 1,
x %in% 3:4 ~ 2,
x %in% 5:6 ~ 3,
x %in% 7:8 ~ 4,
x %in% 9:10 ~ 5,
TRUE ~ x)
})
注意这些值是介于2和10之间的整数,并且
(2:10) %/% 2
#[1] 1 1 2 2 3 3 4 4 5
因此,给出了新的值
(2:10 + 1) %/% 2
#[1] 1 2 2 3 3 4 4 5 5
这是一条班轮。
recode_z <- 3:5
z[recode_z] <- lapply(z[recode_z], function(x) (x + 1L) %/% 2L)
z
# ID Project Q1 Q2 Q3
#1 23 EA 2 1 2
#2 24 EA 5 1 4
#3 25 PLA 4 3 3
#4 26 PLA 3 4 3
#5 27 PLA 5 5 5