我想对 0 到 1 之间的值向量进行分类。低于 .001 的值,以及高于 .10 或无利息的值。因此,我希望这些范围内的值为 NA。
当我运行下面的代码时,我收到警告:
Error in if (x[i] > 0.001 & x[i] <= 0.01) x[i] = 0.01 : missing value where TRUE/FALSE needed
如何修复我的代码?
for (i in 1:length(x))
{
if (x[i] <= .001)
x[i] = NA
if (x[i] > .001 & x[i] <= .01)
x[i] = .01
if (x[i] > .01 & x[i] <= .02)
x[i] = .02
if (x[i] > .02 & x[i] <= .03)
x[i] = .03
if (x[i] > .03 & x[i] <= .04)
x[i] = .04
if (x[i] > .04 & x[i] <= .05)
x[i] = .05
if (x[i] > .05 & x[i] <= .06)
x[i] = .06
if (x[i] > .06 & x[i] <= .07)
x[i] = .07
if (x[i] > .07 & x[i] <= .08)
x[i] = .08
if (x[i] > .08 & x[i] <= .09)
x[i] = .09
if (x[i] > .09 & x[i] <= .10)
x[i] = .10
if (x[i] > .10 & x[i] <= 1)
x[i] = NA
}
首先,一些测试数据:
set.seed(1); x = dnorm(rnorm(100))/(sample(1:100, 100, replace=TRUE))
子集可以通过以下方式完成:
x[x < .001] = NA
x[x > .1] = NA
或者,您可以将其组合在一个语句中:
x[x < .001 | x > .1] = NA
更新:回答代码不起作用的原因
如果它确实在那里找到NA
,则会遇到问题,因此请从for
循环中删除它们,但在运行循环之前为它们编制索引,以便以后可以删除它们。
temp = which(x < .001 | x > .1) # Index the values you want to set as NA
从for
循环中删除以下条件:
if (x[i] > .10 & x[i] <= 1)
x[i] = NA
if (x[i] <= .001)
x[i] = NA
运行 for
循环,然后使用 temp
将值设置为应NA
NA
。
x[temp] = NA
希望这有帮助!
更新 2:两行
x[x < .001 | x > .1] = NA
out <- ceiling(x*100)/100
与AKE建议使用地板几乎相同。
这应该会得到与循环相同的结果。
与其使用显式for
循环,不如尝试使用矢量化函数,例如非常方便的ifelse
。下面介绍如何重新编码示例中的NAs
:
> x <- ifelse(x <= 0.001 | x > 0.1, NA, x)
要重新编码其他值,您可以尝试一些"巧妙"的使用cut
:
> x <- (cut(x, breaks=seq(0.01, 0.09, 0.01), labels=FALSE) / 100) + 0.01
尽管可能有更好(和更透明)的方法。在 R 中避免显式for
循环的原因是,与矢量化替代方法相比,它们的效率非常低。R Inferno很好地讨论了这个和其他R技巧和技巧。
虽然您的解决方案在概念上有效,但它是"蛮力",这意味着大量的键入,不会扩展到稍微不同的问题,并且执行速度也很慢。
R 允许使用向量,因此如果您的逻辑适用于 0 到 1 之间的任意数字,那么它应该适用于 0 到 1 之间的值向量。
尝试如下操作:
y=((floor(100*x)) # all values < 0.01 map to 0
if y>10 then y=0 # force values > 0.1 to 0
if y>0, then (y+1)/100 # for non-zero values, map to the upper interval, then return to original scale.
第一行将所有小于 0.01 的值压缩为 0。第二行将所有大于 0.1 的值压缩为 0。第三行将剩余的非零值提升到范围的最大值(向上舍入),并将它们返回到原始刻度。
findInterval
函数可以有效地用于这个非常结构化的选择问题。它生成一个索引,该索引可以"查找"或为特定间隔的值选择所需的结果:
x <- rnorm(1000)
x <- c(NA, seq(0.1, 1, by=0.1), NA)[
1+ findInterval(x, c(0.001, seq(0.1, 1, by=0.1)) ,rightmost.closed=TRUE) ]
#---------------
table(x)
x
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
34 38 48 44 29 30 26 20 17 31
> table(is.na(x))
FALSE TRUE
317 683
最右边的.closed参数移动了通常最左边的区间闭包,尽管在这个例子中这并不重要,因为没有一个随机绘制都在边界上。但是,销毁输入数据通常不是一个好主意。我希望x
是原始数据的副本。执行此操作的另一种方法是省略1+
,而是在findInterval
第二个参数中使用间隔,例如c(-Inf, 0.001, seq(0.1, 1, by=0.1) , Inf)