R: 使用列表修剪异常值



我有一个11个数据帧的列表,每个数据帧都有44个变量的相同结构。其中一个变量是比率,我正试图修剪包含异常值的记录。使用以下代码,我已经能够得出上限和下限。

首先,我为每个数据帧创建了一个分位数列表:

quartiles <- lapply(class203_in, function(x) {
    quartiles <- quantile(x$mv_ratio, type=6)
    })

接下来,我打破了第一和第三个四分位数:

q1 <- lapply(quartiles, function(x) {
    q1 <- x[2]
    })
# create list of third quartile
q3 <- lapply(quartiles, function(x) {
    q3 <- x[4]
    })

然后我计算了IQR:

iqr <- lapply(class203_in, function(x) {
    iqr <- IQR(x$mv_ratio, type=6)
    })

最后得出了上限和下限:

lower <- mapply(function(x, y) x - (y * 1.5), q1, iqr)
upper <- mapply(function(x, y) (y * 1.5) + x, q3, iqr)

每个对象的结果如下所示(上限具有相同的确切结构和列表中每个对象的名称):

> lower
$`Yr02.25%`
[1] 0.1885
$`Yr03.25%`
[1] 0.2245
$`Yr04.25%`
[1] 0.2005
$`Yr05.25%`
[1] 0.1795
$`Yr06.25%`
[1] 0.2315
$`Yr07.25%`
[1] 0.127
$`Yr08.25%`
[1] 0.06125
$`Yr09.25%`
[1] 0.0365
$`Yr10.25%`
[1] -0.29725
$`Yr11.25%`
[1] -0.2985
$`Yr12.25%`
[1] -0.1045

我现在正试图使用这两个列表来修剪我的数据帧主列表中的异常值,其中mv_ratio是我试图修剪的变量。我已经接近了,但我似乎无法用它来踢出数据帧的精确副本,无论是在列表中还是在其他方面。这是让我最接近的代码:

class203_out <- mapply(function(x, y, z) x <- x[which(x$mv_ratio > y &
     x$mv_ratio < z),], class203_in, lower, upper)   

class203_in是数据帧的列表。当我运行这个时,我得到一个巨大的矩阵。

如有任何帮助或推动,我们将不胜感激。

由于您只处理一个列表,而且您的问题似乎很简单,我建议使用doParallel包来执行foreach(如果您愿意,可以并行化,但默认情况下是顺序的)。

此外,我建议在所有情况下都使用data.table,因为。

library(doParallel)
library(data.table)
subsetted_df_list <- foreach(i = seq(df_list)) %do% {
  x <- setDT(df_list[[i]])
  q <- quantile(x$mv_ratio, type = 6)
  iqr <- IDR(x$mv_ratio, type = 6)
  lower <- q[2] - iqr * 1.5
  upper <- q[4] + iqr * 1.5
  x[mv_ratio < upper & lower < mv_ratio]
}

这将返回原始列表中的一个子集数据帧列表,此处称为df_list

最新更新