我只是有一个简单的问题,我真的很感谢大家的输入,你对我的项目有很大的帮助。我还有一个关于r中的数据帧的问题。
我有一个看起来像这样的数据帧:
C <- c("","","","","","","","A","B","D","A","B","D","A","B","D")
D <- c(NA,NA,NA,2,NA,NA,1,1,4,2,2,5,2,1,4,2)
G <- list(C=C,D=D)
T <- as.data.frame(G)
T
C D
1 NA
2 NA
3 NA
4 2
5 NA
6 NA
7 1
8 A 1
9 B 4
10 D 2
11 A 2
12 B 5
13 D 2
14 A 1
15 B 4
16 D 2
我希望能够将所有重复的字符压缩成一个,看起来像这样:
J B C E
1 2 1
2 A 1 2 1
3 B 4 5 4
4 D 2 2 2
当然,数据都是一样的,只是它被压缩了,并且形成了新的列来保存数据。我相信有一种简单的方法可以做到这一点,但是从我看过的书中,我没有看到任何关于这一点的!
EDIT我编辑了这个例子,因为到目前为止它还不能与答案一起工作。我想知道这是否与美服、空服和空服的不均匀有关?
这里有一个重塑的解决方案:
require(reshape)
cast(T, C ~ ., function(x) x)
将T改为df以避免坏习惯。返回一个列表,这可能不是你想要的,但你可以从那里转换。
C <- c("A","B","D","A","B","D","A","B","D")
D <- c(1,4,2,2,5,2,1,4,2)
my.df <- data.frame(id=C,val=D)
ret <- function(x) x
by.df <- by(my.df$val,INDICES=my.df$id,ret)
这似乎得到您正在寻找的结果。我假设删除NA
值是可以的,因为它与您显示的期望输出相匹配。
T <- na.omit(T)
T$ind <- ave(1:nrow(T), T$C, FUN = seq_along)
reshape(T, direction = "wide", idvar = "C", timevar = "ind")
# C D.1 D.2 D.3
# 4 2 1 NA
# 8 A 1 2 1
# 9 B 4 5 4
# 10 D 2 2 2
library(reshape2)
dcast(T, C ~ ind, value.var = "D", fill = "")
# C 1 2 3
# 1 2 1
# 2 A 1 2 1
# 3 B 4 5 4
# 4 D 2 2 2