Rcpp子集连续StringVector



下午好,

在使用Rcpp时,我一直在尝试使用类似于在R中对x[200:300]进行子集设置的方法。(注意,这不是我试图解决的问题,但我需要在我试图用C++编写的函数中划分许多范围,我发现这是我性能的瓶颈)

然而,尽管我尝试过在rcpp中使用迭代器或其他方法,但我似乎没有找到一个最低限度"快速"的解决方案。我找到的大多数解决方案都很慢。

看看Rcpp的参考,我似乎找不到任何东西,在StackExchange中也找不到。

我知道这个代码现在很难看。。。但我对一无所知

// [[Rcpp::export]]
StringVector range_test_( StringVector& x, int i, int j){
StringVector vect(x.begin()+i, x.begin()+j);
return vect;
}

然后,它就慢了800倍。我一直在尝试在rcpp库中找到与R相同的x[i:j]函数,它非常快。。。但我找不到。

tests_range <- rbenchmark::benchmark(
x[200:3000],
range_test_(x, 200, 3000),
order = NULL,
replications = 80
)[,1:4]

结果给出

test replications elapsed relative
1                     x[200:3000]           80   0.001        1
3       range_test_(x, 200, 3000)           80   0.822      822

如果有人知道如何在Rcpp中快速访问子设置函数x[i:j]或其他功能,我将不胜感激。我只是似乎找不到我缺少的工具。

问题是迭代器构造函数生成了一个副本。参见本页

将迭代器之间的数据首先复制到创建的向量

但是,您可以尝试使用

#include <Rcpp.h>
// [[Rcpp::export]]
Rcpp::StringVector in_range(Rcpp::StringVector &x, int i, int j) {
return x[Rcpp::Range(i - 1, j - 1)]; // zero indexed
}

所花费的时间更接近

> set.seed(20597458)
> x <- replicate(1e3, paste0(sample(LETTERS, 5), collapse = ""))
> head(x)
[1] "NHVFQ" "XMEOF" "DABUT" "XKTAZ" "NQXZL" "NPJLM"
> 
> stopifnot(all.equal(in_range(x, 100, 200), x[100:200]))
> 
> library(microbenchmark)
> microbenchmark(in_range(x, 100, 200), x[100:200], times = 1e4)
Unit: nanoseconds
expr  min   lq     mean median   uq     max neval
in_range(x, 100, 200) 1185 1580 3669.780   1581 1976 3263205 10000
x[100:200]  790  790 1658.571   1185 1186 2331256 10000

请注意,这里有一个关于susbetting的页面。不过,我在那里找不到相关的例子。

最新更新