使用 R 中的引用列创建 4 小时时间间隔



我想使用数据框中的参考列创建一个 4 小时的间隔。我有一个这样的数据框:

species<-"ABC"
ind<-rep(1:4,each=24)
hour<-rep(seq(0,23,by=1),4)
depth<-runif(length(ind),1,50)
df<-data.frame(cbind(species,ind,hour,depth))
df$depth<-as.numeric(df$depth)

想要的是创建一个新列(不更改原始数据框的信息或维度),该列可以查看我的小时列(参考列),并根据该值为我提供 4 小时的时间间隔。例如,如果小时列中的值介于 0 和 3 之间,则新列中的值将为 0;如果值介于 4 和 7 之间,则新列中的值将为 4,依此类推...在 excel 中,我曾经为此使用地板/天花板功能,但在 R 中它们并不完全相同。此外,如果有人使用原始日期/时间数据对此有更简单的建议,也可以使用。在我的原始脚本中,我使用了该函数作为。POSIXct 以获取日期/时间数据,然后从那里获取我的小时列。

我感谢您的帮助,

将小时列转换为整数,并使用整数除法获得地板怎么样? 像这样的东西

# convert hour to integer (hour is currently a col of factors)
i <- as.numeric(levels(df$hour))[df$hour]
# make new column
df$interval <- (i %/% 4) * 4 
<</div> div class="one_answers">

扩展我的评论,因为我认为您最终会在某个时候寻找实际日期......

一些每小时数据示例:

set.seed(1)
mydata <- data.frame(species = "ABC",
                     ind = rep(1:4, each=24),
                     depth = runif(96, 1, 50),
                     datetime = seq(ISOdate(2000, 1, 1, 0, 0, 0), 
                                    by = "1 hour", length.out = 96))
list(head(mydata), tail(mydata))
# [[1]]
#   species ind    depth            datetime
# 1     ABC   1 14.00992 2000-01-01 00:00:00
# 2     ABC   1 19.23407 2000-01-01 01:00:00
# 3     ABC   1 29.06981 2000-01-01 02:00:00
# 4     ABC   1 45.50218 2000-01-01 03:00:00
# 5     ABC   1 10.88241 2000-01-01 04:00:00
# 6     ABC   1 45.02109 2000-01-01 05:00:00
# 
# [[2]]
#    species ind     depth            datetime
# 91     ABC   4 12.741841 2000-01-04 18:00:00
# 92     ABC   4  3.887784 2000-01-04 19:00:00
# 93     ABC   4 32.472125 2000-01-04 20:00:00
# 94     ABC   4 43.937191 2000-01-04 21:00:00
# 95     ABC   4 39.166819 2000-01-04 22:00:00
# 96     ABC   4 40.068132 2000-01-04 23:00:00

使用 cutformat 转换该数据:

mydata <- within(mydata, {
    hourclass <- cut(datetime, "4 hours")             # Find the intervals
    hourfloor <- format(as.POSIXlt(hourclass), "%H")  # Display just the "hour"
})
list(head(mydata), tail(mydata))
# [[1]]
#   species ind    depth            datetime           hourclass hourfloor
# 1     ABC   1 14.00992 2000-01-01 00:00:00 2000-01-01 00:00:00        00
# 2     ABC   1 19.23407 2000-01-01 01:00:00 2000-01-01 00:00:00        00
# 3     ABC   1 29.06981 2000-01-01 02:00:00 2000-01-01 00:00:00        00
# 4     ABC   1 45.50218 2000-01-01 03:00:00 2000-01-01 00:00:00        00
# 5     ABC   1 10.88241 2000-01-01 04:00:00 2000-01-01 04:00:00        04
# 6     ABC   1 45.02109 2000-01-01 05:00:00 2000-01-01 04:00:00        04
# 
# [[2]]
#    species ind     depth            datetime           hourclass hourfloor
# 91     ABC   4 12.741841 2000-01-04 18:00:00 2000-01-04 16:00:00        16
# 92     ABC   4  3.887784 2000-01-04 19:00:00 2000-01-04 16:00:00        16
# 93     ABC   4 32.472125 2000-01-04 20:00:00 2000-01-04 20:00:00        20
# 94     ABC   4 43.937191 2000-01-04 21:00:00 2000-01-04 20:00:00        20
# 95     ABC   4 39.166819 2000-01-04 22:00:00 2000-01-04 20:00:00        20
# 96     ABC   4 40.068132 2000-01-04 23:00:00 2000-01-04 20:00:00        20

请注意,新的"hourclass"变量是一个因素,新的"hourfloor"变量是字符,但即使在within阶段,您也可以轻松更改这些变量。

str(mydata)
# 'data.frame':    96 obs. of  6 variables:
#  $ species  : Factor w/ 1 level "ABC": 1 1 1 1 1 1 1 1 1 1 ...
#  $ ind      : int  1 1 1 1 1 1 1 1 1 1 ...
#  $ depth    : num  14 19.2 29.1 45.5 10.9 ...
#  $ datetime : POSIXct, format: "2000-01-01 00:00:00" "2000-01-01 01:00:00" ...
#  $ hourclass: Factor w/ 24 levels "2000-01-01 00:00:00",..: 1 1 1 1 2 2 2 2 3 3 ...
#  $ hourfloor: chr  "00" "00" "00" "00" ...

提示 1,不要使用 cbind 来创建具有不同类型列的 data.frame,所有内容都会强制为同一类型(在这种情况下是因素)

findIntervalcut在这里似乎很合适。

df <- data.frame(species,ind,hour,depth)
# copy
df2 <- df
df2$fourhour <- c(0,4,8,12,16,20)[findInterval(df$hour, c(0,4,8,12,16,20))]

虽然可能有一种更简单的方法,但这里有一次尝试。

不过,首先不要使用 cbind data.frame,这样hour就不是factor而是numeric

df <- data.frame(species,ind,hour,depth)

然后:

df$interval <- factor(findInterval(df$hour,seq(0,23,4)),labels=seq(0,23,4))

结果:

> head(df)
  species ind hour    depth interval
1     ABC   1    0 23.11215        0
2     ABC   1    1 10.63896        0
3     ABC   1    2 18.67615        0
4     ABC   1    3 28.01860        0
5     ABC   1    4 38.25594        4
6     ABC   1    5 30.51363        4

您还可以使标签更好一点,例如:

cutseq <- seq(0,23,4)
df$interval <- factor(
                       findInterval(df$hour,cutseq),
                       labels=paste(cutseq,cutseq+3,sep="-")
                     )

结果:

> head(df)
  species ind hour    depth interval
1     ABC   1    0 23.11215      0-3
2     ABC   1    1 10.63896      0-3
3     ABC   1    2 18.67615      0-3
4     ABC   1    3 28.01860      0-3
5     ABC   1    4 38.25594      4-7
6     ABC   1    5 30.51363      4-7

最新更新