r-如何消除价值的一次性增长



我正在处理一个变量的时间序列数据,该变量通常随时间缓慢增加。非常简单的例子:

df <- data.frame(index=1:8, value = c(rep(0.25, 3),1.95,0.25,rep(0.5,3)))
 index value
     1  0.25
     2  0.25
     3  0.25
     4  1.95
     5  0.25
     6  0.50
     7  0.50
     8  0.50

数据集的一个反复出现的特征是索引4处发生的情况:值向上飙升,然后立即再次回落。我想删除这些值。(在我的数据集中,也有一些点的值会小幅增加,然后在一段时间后小幅减少,但我想保留这些。)

我找到了一种删除值的方法,使用diff计算上一个值的变化,然后将数据帧倒置,再次使用diff计算下一个值变化,并删除两个diff相同的行,但这似乎是有史以来效率最低的过程:

library(dplyr)
df %>% 
  mutate(diffprev = diff(value) %>% c(0, .)) %>% 
  arrange(desc(variable)) %>% 
  mutate(diffnext = diff(value) %>% c(0, .)) %>% 
  filter(diffprev == 0 | diffprev != diffnext)

我意识到,如果指数5而不是4出现峰值,这是行不通的,但在整个数据集中,这是不太可能的,除非有一个简单的解决方案,否则我不会担心。但有什么更好的方法呢?

您可以尝试:

df %>% filter(lag(value) != lead(value) | (value - lag(value)) %in% c(0, NA))

您可能还对dplyr中的laglead函数感兴趣。

编辑:感谢@Frank的几次修改

您不需要重新排列。你制作的第一个diff列包含了你需要的所有信息:

df %>% 
  mutate(diffprev = diff(value) %>% c(0, .)) %>%
  filter(diffprev == 0 | diffprev != -lead(diffprev) ) %>%
  select(-diffprev)

它给出

  variable value
1        1  0.25
2        2  0.25
3        3  0.25
4        5  0.25
5        6  0.50
6        7  0.50
7        8  0.50

最新更新