R - 根据对另外两列的比较为一列赋值 - R - assigning value to one column based on a comparison of two other columns 小贝子编程网

假设我有以下数据：

SNP eff_allele A1 A2
rs1000000 A A G
rs10000010 C C T
rs1000002 T T C
rs10000023 G T G

我想创建一个新变量 alt_allele，它采用 A1 或 A2 列的值，具体取决于列eff_allele的值。如果eff_allele等于 A1，则alt_allele应获取 A2 的值，如果eff_allele等于 A2，则alt_allele应获取 A1 的值。我做了两次尝试：

尝试 1：

if (myData$eff_allele == myData$A1) {
myData$alt_allele <- myData$A2
}
if (myData$eff_allele == myData$A2) {
myData$alt_allele <- myData$A1
}

尝试 2：

height_fam$alt_allele[height_fam$eff_allele == height_fam$A1] <- height_fam$A2
height_fam$alt_allele[height_fam$eff_allele == height_fam$A2] <- height_fam$A1

这两个都不起作用...我做错了什么？如何实现对数据的以下更新：

SNP eff_allele A1 A2 alt_allele
rs1000000 A A G G
rs10000010 C C T T
rs1000002 T T C C
rs10000023 G T G T

在R和matlab尽量不要太使用循环，它们很慢。尝试通过向量s 解决您的问题。

编辑：哦，我读错了你的问题，反正你没有使用向量:)

a=read.table("a.csv", sep = " ", header = T)
row = dim(a)
# Number of rows
row = row[2]
newcol = rep("",row)
A1 = as.character(a$A1)
A2 = as.character(a$A2)
eff_allele = as.character(a$eff_allele)
# a1_ind is FALSE for index that should be equal to A1
a1_ind = eff_allele!= A1
newcol[a1_ind] = A1[a1_ind]
newcol[!a1_ind] = A2[!a1_ind]
a = cbind(a,newcol)

输出将是：

         SNP eff_allele A1 A2 newcol
1  rs1000000          A  A  G      G
2 rs10000010          C  C  T      T
3  rs1000002          T  T  C      C
4 rs10000023          G  T  G      T

R - 根据对另外两列的比较为一列赋值

相关内容

最新更新

热门标签：