对由R中相同标志标识的时间序列值组进行单独操作

有人有执行的解决方案吗

上的单独操作
一组连续值
时间序列的子集
由重复出现的相同标志标识
用R

在下面代码创建的示例数据集中，例如，这指的是在连续几天"flag"==1的情况下，分别计算每组的"值"的平均值。

科学中的一个典型案例是由仪器记录的数据集，该仪器重复执行校准程序并用相同的标志标记相应的数据，但用户需要用相同的程序单独评估每个校准。

谢谢你的建议。Jens

library(lubridate)
df <- data.frame(
date = seq(ymd("2018-01-01"), ymd("2018-06-29"), by = "days"),
flag = rep( c(rep(1,10), rep(0, 20)), 6),
value = seq(1,180,1)
)

data.table函数rleid非常适合为连续值的运行提供组ID。我继续使用data.table，但除了rleid部分之外，您可以在dplyr或base中使用其他所有部分。

我的答案可以归结为使用data.table::rleid，然后选择你最喜欢的分组方式(R-FAQ链接(

library(data.table)
setDT(df)
df[, r_id := rleid(flag)]
df[flag == 1, list(
min_date = min(date),
max_date = max(date),
mean_value = mean(value)
), by = r_id]
#    r_id   min_date   max_date mean_value
# 1:    1 2018-01-01 2018-01-10        5.5
# 2:    3 2018-01-31 2018-02-09       35.5
# 3:    5 2018-03-02 2018-03-11       65.5
# 4:    7 2018-04-01 2018-04-10       95.5
# 5:    9 2018-05-01 2018-05-10      125.5
# 6:   11 2018-05-31 2018-06-09      155.5

相关内容

最新更新

热门标签：