我正在分析一个数据集,这是老师的反馈。数据框中的每一行都是老师,他们的每个答案都是一个变量,但是我在输入每位老师的年级时遇到了问题,因为很多老师教多个年级。
例如:
Teacher Year
a 1
b 3
c 1/2
d 7
e 3/4
如何将此数据输入到 Excel 工作表中,然后输入到 R 中并对其进行有用的分析?我以前从未处理过在同一行包含多个选项的变量。
假设您在名为teacher_data
的对象中已经有 R 中的数据。我将向您展示处理我最常使用的此类响应的方法:您创建额外的列,以便每个答案通过方便的tidyr
函数separate()
获得自己的单元格。
library(tidyr)
separate(teacher_data, col = "Year", into = paste0("Year", 1:2), sep = "/")
结果如下:
Teacher Year1 Year2
1 a 1 <NA>
2 b 3 <NA>
3 c 1 2
4 d 7 <NA>
5 e 3 4
然后,如何使用这些列取决于您尝试对数据提出的答案类型。您问题的这一部分可能最好在姊妹站点交叉验证(用于统计的堆栈交换(上提出。
就Excel而言,我什至不会将Excel作为中间步骤来处理;这是不必要的。如果在完成到 CSV 时将数据写出,Excel 可以很好地读取 CSV:
write.csv(teacher_data, file = "teacher_data.csv", row.names = FALSE)
另外,为了让您知道,我通过以下方式将您的数据放入 R 中:
teacher_data <- read.table(header = TRUE, stringsAsFactors = FALSE, text = "
Teacher Year
a 1
b 3
c 1/2
d 7
e 3/4")