r语言 - 基准测试数据帧(基本)、数据帧(包数据帧)和数据表



随着最近推出的包dataframe,我认为是时候对各种数据结构进行适当的基准测试并突出每种结构最擅长的地方了。我不是每种优势的专家,所以我的问题是,我们应该如何对它们进行基准测试。

我尝试过的一些(相当粗糙的)事情:

library(microbenchmark)
library(data.table)
mat <- matrix(rnorm(10000), nrow = 100)
mat2df.base <- data.frame(mat)
library(dataframe)
mat2df.dataframe <- data.frame(mat)
mat2dt <- data.table(mat)
bm <- microbenchmark(t(mat), t(mat2df.base), t(mat2df.dataframe), t(mat2dt), times = 1000)

结果:

Unit: microseconds
                 expr      min       lq   median       uq       max
1              t(mat)   20.927   23.210   31.201   36.908   951.591
2      t(mat2df.base)  929.903  974.039  997.439 1040.814 28270.717
3 t(mat2df.dataframe)  924.957  969.093  992.683 1025.404 27255.205
4           t(mat2dt) 1749.465 1817.382 1857.903 1909.649  5347.321

我不是 data.table 专家,但据我所知,它的主要优势在于索引。 因此,请尝试使用各种软件包进行子集化以比较速度。

library(microbenchmark)
library(data.table)
mat <- matrix(rnorm(1e7), ncol = 10) 
key <- as.character(sample(1:10,1e6,replace=TRUE))
mat2df.base <- data.frame(mat)
mat2df.base$key <- key
bm.before <- microbenchmark( 
  mat2df.base[mat2df.base$key==2,] 
)
library(dataframe)
mat2df.dataframe <- data.frame(mat)
mat2df.dataframe$key <- key
mat2dt <- data.table(mat)
mat2dt$key <- key
setkey(mat2dt,key)

bm.subset <- microbenchmark( 
  mat2df.base[mat2df.base$key==2,], 
  mat2df.dataframe[mat2df.dataframe$key==2,],
  mat2dt["2",]
  )
                                       expr       min        lq    median   
    uq       max
1           mat2df.base[mat2df.base$key == 2, ] 153.99596 154.98602 155.91621 157.0894 194.24456
2 mat2df.dataframe[mat2df.dataframe$key == 2, ] 153.63907 154.66295 155.68553 156.9827 173.76913
3                                 mat2dt["2", ]  15.51085  15.66742  15.72899  15.8463  22.53044

对于足够大的矩阵,data.table 会用其他选项擦除该表。

另外,我怀疑@RJ-试图将基础数据帧的性能与dataframe的data.frame的包进行比较是行不通的。 性能太相似了,我怀疑结果是加载库的结果,而不是基础。

编辑:已测试。 似乎没有太大区别。 bm.after与上面的bm.subset代码相同,只需与bm.before同时运行即可提供准确的比较。

bm.before <- microbenchmark( 
  mat2df.base[mat2df.base$key==2,] 
)
> bm.after
Unit: milliseconds
                                           expr       min        lq    median        uq       max
1           mat2df.base[mat2df.base$key == 2, ] 160.62708 166.25787 167.52325 169.18710 173.47864
2 mat2df.dataframe[mat2df.dataframe$key == 2, ] 163.30259 166.00588 167.80138 169.24647 174.05713
3                                 mat2dt["2", ]  16.16117  16.89627  17.09047  17.37057  62.01954
> bm.before
Unit: milliseconds
                                 expr     min       lq   median       uq      max
1 mat2df.base[mat2df.base$key == 2, ] 159.178 160.9867 162.1149 164.0046 195.9501

相关内容

  • 没有找到相关文章

最新更新