合并可能有或可能没有重叠数据的列,使用R



假设你有一个这样的数据集:

          Vietnam    Gulf War     Iraq War
veteran1    1           0            0
veteran2    0           1            0
veteran3    0           0            1
veteran4    0           1            1  # <---- Note this row

您希望合并这些列而不影响数据框架中的其他列,如下所示:

          Service  
veteran1    1                  
veteran2    2                     
veteran3    3                            
veteran4    2  # <---- Note this row

,

  • 1 = Vietnam, 2 = Gulf War, 3 = Iraq War
  • 如果一个退伍军人已经服务了2或更多,它应该只选择一个(就像veteran4的情况下,它选择了他们最左边的列)
  • 数据框架中有许多其他列,它们不应该受到任何
  • 的影响。

问题:

如何在R中做到这一点?

(注意:如果在其他自由开源程序中更容易做到,请随意分享哪个程序以及您将如何做。这是一个庞大的数据集:300万行,美国社区调查)

看看你的数据,这似乎是一个简单的问题:

如果越南战争> 0,则使用1,如果海湾战争> 0则使用2,如果伊拉克战争> 0则使用3,则使用0

vietnam = c(1, 0, 0,0) 
gulfwar = c(0,1,0,1)
iraq = c(0,0,1,1)
df = data.frame(vietnam, gulfwar, iraq) 
df$service <- ifelse(df$vietnam > 0,1,ifelse(df$gulfwar>0,2,ifelse(df$iraq>0,3,0)))
df
结果:

       vietnam gulfwar iraq service
  1       1       0    0       1
  2       0       1    0       2
  3       0       0    1       3
  4       0       1    1       2

可能有点复杂(相对于其他解决方案),但这里是使用apply的一种方法:

df$service <-  apply(df, 1, function(x) which(x == 1)[1] )
df
  vietnam gulfwar iraq service
1       1       0    0       1
2       0       1    0       2
3       0       0    1       3
4       0       1    1       2

最新更新