R-与字符串单独的数字



在此示例中,将digitsletters分开的最有效方法是什么:

       V1 V2
1 p_men_1  1
2 p_men_2  0
3 p_men_3  1
4 p_wom_1  1
5 p_wom_2  1
6 p_wom_3  0

ouput

     V1 V2 V3
1 p_men  1  1
2 p_men  2  0
3 p_men  3  1
4 p_wom  1  1
5 p_wom  2  1
6 p_wom  3  0

我尝试了

library(tidyr) 
library(dplyr)
df %>% separate(V1, c('V1', 'V2'), sep = '_')

但是由于" _'",它不起作用

  df = rbind(c('p_men_1', 1), 
  c('p_men_2', 0), 
  c('p_men_3', 1), 
  c('p_wom_1', 1), 
  c('p_wom_2', 1), 
  c('p_wom_3', 0))
  df = as.data.frame(df)

这可以工作:

df %>% 
    extract(V1, c('V1', 'V2'), regex = '(^.+)_(\d+)')
#      V1 V2 V2
# 1 p_men  1  1
# 2 p_men  2  0
# 3 p_men  3  1
# 4 p_wom  1  1
# 5 p_wom  2  1
# 6 p_wom  3  0

我的策略是在最后一个下划线上分开,可以通过形成具有下划线的模式,然后是零长度的look-eav-eav-eav-eav-eav-eav-eav-字符值的结尾。

cbind( do.call( rbind, strsplit(as.character(dat$V1), split= '_(?=[^_]+$)', perl=TRUE) ),
       dat['V2'] )
      1 2 V2
1 p_men 1  1
2 p_men 2  0
3 p_men 3  1
4 p_wom 1  1
5 p_wom 2  1
6 p_wom 3  0

不幸的是,这似乎是一个畸形的数据框架,因为尽管被识别为数据框架并获取cbind.data.frame,但它仍将列名称不正确地形成了前导数字。

相关内容

  • 没有找到相关文章

最新更新