R - 如果向量中的任何字符串出现在几列中的任何一列中，则返回布尔值 - R - return boolean if any strings in a vector appear in any of several columns 小贝子编程网

我有一个很大的数据框，其中每一行都是指入院。每次入院在第 5 至 24 列中附有多达 20 个诊断代码。

Col1   Col2   Col3   Col4   Diag_1  Diag_2  Diag_3 ... Diag_20
data   data   data   data   J123    F456    H789       E468
data   data   data   data   T452    NA      NA         NA

另外，我有一个长度为 136 的向量（risk_codes），都是字符串。这些字符串是风险代码，可以类似于截断的诊断代码（例如，J12 可以，F4 可以，H798 不会）。

我希望在数据框中添加一列，如果任何风险代码与任何诊断代码相似，则返回 1。我不需要知道有多少，只需要至少一个。

到目前为止，我已经尝试了以下方法，与其他尝试相比，最成功：

for (in in 1:length(risk_codes){
    df$newcol <- apply(df,1,function(x) sum(grepl(risk_codes[i], x[c(5:24)])))
}

它适用于单个字符串，并用 0 填充列表示没有相似代码，1 表示相似代码，但是当检查第二个代码时，所有内容都会被覆盖，依此类推risk_codes向量的 136 个元素。

有什么想法吗？对每一行的每一列中的每个risk_code运行循环是不可行的。

解决方案如下所示

Col1   Col2   Col3   Col4   Diag_1  Diag_2  Diag_3 ... Diag_20   newcol
data   data   data   data   J123    F456    H789       E468      1
data   data   data   data   T452    NA      NA         NA        0

例如，如果我的risk_codes包含 J12、F4、T543。

我们想一次对所有risk_codes应用 grepl。因此，我们一次每行得到一个结果。我们可以做到这一点 sapply 和 any .

因此，我们可以删除 for 循环，您的代码将变为如下所示：

my_df <- read.table(text="Col1   Col2   Col3   Col4   Diag_1  Diag_2  Diag_3  Diag_20
data   data   data   data   J123    F456    H789       E468
data   data   data   data   T452    NA      NA         NA", header=TRUE)
risk_codes <- c("F456", "XXX") # test codes
my_df$newcol <- apply(my_df,1,function(x) 
                                  any(sapply(risk_codes, 
                                              function(codes) grepl(codes,
                                                              x[c(5:24)]))))

结果是一个逻辑向量。

如果你仍然想用 1 和 0 而不是 TRUE/FALSE，你只需要完成：

my_df$new_col <- ifelse(my_df$newcol, 1, 0)

结果将是：

> my_df
  Col1 Col2 Col3 Col4 Diag_1 Diag_2 Diag_3 Diag_20 newcol
1 data data data data   J123   F456   H789    E468      1
2 data data data data   T452   <NA>   <NA>    <NA>      0

R - 如果向量中的任何字符串出现在几列中的任何一列中，则返回布尔值

相关内容

最新更新

热门标签：