基于日期和使用data.table的其他条件的R累计和



我有一些足球数据(2020/2021意甲(,我想计算每支球队在过去n天里的比赛次数(比如说简化过去30天(。因此,条件是球队、比赛当天(严格小于(和当天-30(大于或等于(。

我想知道使用data.table(单独使用(实现这一点的最佳方法是什么,更重要的是,代码背后的逻辑。我会对团队和日期进行循环,但我认为这很麻烦,我相信有办法在一排中完成。

下面给出了一个样本,我预计会有结果(日期和日期可能看起来有误导性,因为有些比赛被推迟了,但这并不重要。数据是按日期分类的(。非常感谢。

日期>过去30天的比赛亚特兰大>2020-08-312020-09-0442020-09-1732020-09-2442020-10-01亚特兰大
代码 团队日期-30天
LAZATA 亚特兰大 2020-09-30 11
ATACAG 亚特兰大 2020-10-04 32
NAPATA 亚特兰大 2020-10-17
ATASAM 亚特兰大 2020-10-24 5
克罗地亚 亚特兰大 2020-10-31 63

这里有一个实现,只有data.table和基本R:

dat[, z := sapply(Date, function(z) sum(between(z - Date, 0.1, 30)))]
dat
#      Code     Team       Date   Day Date...30d Games.played.over.the.last.30.days     z
#    <char>   <char>     <Date> <int>     <Date>                              <int> <int>
# 1: TORATA Atalanta 2020-09-26     2 2020-08-27                                 NA     0
# 2: LAZATA Atalanta 2020-09-30     1 2020-08-31                                  1     1
# 3: ATACAG Atalanta 2020-10-04     3 2020-09-04                                  2     2
# 4: NAPATA Atalanta 2020-10-17     4 2020-09-17                                  3     3
# 5: ATASAM Atalanta 2020-10-24     5 2020-09-24                                  4     4
# 6: CROATA Atalanta 2020-10-31     6 2020-10-01                                  3     3
# 7: ATAINT Atalanta 2020-11-08     7 2020-10-09                                  3     3

在这种情况下,对于每个Date值,我们计算出在其30天内的日期数

如果您需要NA来代替0,那么您可以添加dat[z < 1, z := NA]或类似内容。


数据:

library(data.table)
dat <- structure(list(Code = c("TORATA", "LAZATA", "ATACAG", "NAPATA", "ATASAM", "CROATA", "ATAINT"), Team = c("Atalanta", "Atalanta", "Atalanta", "Atalanta", "Atalanta", "Atalanta", "Atalanta"), Date = structure(c(18531, 18535, 18539, 18552, 18559, 18566, 18574), class = "Date"), Day = c(2L, 1L, 3L, 4L, 5L, 6L, 7L), Date...30d = structure(c(18501, 18505, 18509, 18522, 18529, 18536, 18544), class = "Date"), Games.played.over.the.last.30.days = c(NA, 1L, 2L, 3L, 4L, 3L, 3L)), class = c("data.table", "data.frame"), row.names = c(NA, -7L))
setDT(dat)

您可以将runnerdata.table结合使用来计算正在运行的Date窗口计数:

library(data.table)
library(runner)
setDT(data)
data[,Date:=as.Date(Date,'%Y-%m-%d')]
data[,N:=runner::runner(
x = Date, 
k = 30, # 30-days window
lag = 1,
idx = Date,
f = length)
,by=Team][]
Code     Team       Date Day    Date30d Games30days N
1: TORATA Atalanta 2020-09-26   2 2020-08-27          NA 0
2: LAZATA Atalanta 2020-09-30   1 2020-08-31           1 1
3: ATACAG Atalanta 2020-10-04   3 2020-09-04           2 2
4: NAPATA Atalanta 2020-10-17   4 2020-09-17           3 3
5: ATASAM Atalanta 2020-10-24   5 2020-09-24           4 4
6: CROATA Atalanta 2020-10-31   6 2020-10-01           3 3
7: ATAINT Atalanta 2020-11-08   7 2020-10-09           3 3

数据:

data <- read.table(text='
Code    Team    Date    Day     Date30d     Games30days
TORATA  Atalanta    2020-09-26  2   2020-08-27  NA
LAZATA  Atalanta    2020-09-30  1   2020-08-31  1
ATACAG  Atalanta    2020-10-04  3   2020-09-04  2
NAPATA  Atalanta    2020-10-17  4   2020-09-17  3
ATASAM  Atalanta    2020-10-24  5   2020-09-24  4
CROATA  Atalanta    2020-10-31  6   2020-10-01  3
ATAINT  Atalanta    2020-11-08  7   2020-10-09  3',header=T)

您可以通过一行代码获得这一点,使用表本身的非等联接。

假设fb是您的输入数据(没有Games30days列(。像这样:

Code     Team       Date Day Date - 30d
1: TORATA Atalanta 2020-09-26   2 2020-08-27
2: LAZATA Atalanta 2020-09-30   1 2020-08-31
3: ATACAG Atalanta 2020-10-04   3 2020-09-04
4: NAPATA Atalanta 2020-10-17   4 2020-09-17
5: ATASAM Atalanta 2020-10-24   5 2020-09-24
6: CROATA Atalanta 2020-10-31   6 2020-10-01
7: ATAINT Atalanta 2020-11-08   7 2020-10-09

然后,只需对Team=TeamDate<DateDate>Date - 30d执行联接,如下所示:

games_played = fb[fb,on=.(Team = Team, Date<Date, Date>`Date - 30d`), nomatch=0][,.("Games30" =  .N), .(Date,Team)]

返回

Date     Team Games30
1: 2020-09-30 Atalanta       1
2: 2020-10-04 Atalanta       2
3: 2020-10-17 Atalanta       3
4: 2020-10-24 Atalanta       4
5: 2020-10-31 Atalanta       3
6: 2020-11-08 Atalanta       3

这个结果可以很容易地连接回原始结果,以获得所有列,如下所示:

games_played[fb, on=.(Team, Date)]

相关内容

  • 没有找到相关文章

最新更新