向量化具有多个条件的for循环,该循环在R中循环数据帧



我有一个700万行的大型数据集,我正试图遍历数据帧的每一行,并根据一组条件更改列中的值。

这需要很多时间,我想知道是否有可能将过程矢量化,或者是否有更高效、更快的方法。我正在使用R代码

我的代码如下:

for(row in 1:nrow(tttotalCam2020)){
viewTime <- tttotalCam2020[row, "DAY_DATE"]
termCode <- tttotalCam2020[row, "TERM_CODE"]

if(termCode=='SP1'){
if(viewTime <= as.POSIXct("2020/01/31")){
tttotalCam2020[row,'COURSE_PERIOD']='Early'
}else if(as.POSIXct("2020/02/1") >= viewTime & viewTime <= as.POSIXct("2020/03/8")){
tttotalCam2020[row,'COURSE_PERIOD']='Mid'
}else{
tttotalCam2020[row,'COURSE_PERIOD']='Late'
}
}else if(termCode=='SP2'){
if(viewTime <=as.POSIXct("2020/03/31")){
tttotalCam2020[row,'COURSE_PERIOD']='Early'
}else if(as.POSIXct("2020/04/1")>=viewTime & viewTime <=as.POSIXct("2020/06/5")){
tttotalCam2020[row,'COURSE_PERIOD']='Mid'
}else{
tttotalCam2020[row,'COURSE_PERIOD']='Late'
}
}else {
if(viewTime <=as.POSIXct("2020/04/24")){
tttotalCam2020[row,'COURSE_PERIOD']='Early'
}else if(as.POSIXct("2020/04/25")>=viewTime & viewTime <=as.POSIXct("2020/05/31")){
tttotalCam2020[row,'COURSE_PERIOD']='Mid'
}else{
tttotalCam2020[row,'COURSE_PERIOD']='Late'
}

如果您可以共享我们可以测试的示例数据,将更容易提供帮助。

dplyr::case_when解决方案可能如下所示:

library(dplyr)
tttotalCam2020 %>%
mutate(COURSE_PERIOD = case_when(
termCode == "SP1" & viewtime <= as.POSIXct("2020/01/31") ~ "Early",
termCode == "SP1" & viewtime <= as.POSIXct("2020/03/08") ~ "Mid",
# etc.
))

如果你有很多不同的termCodes,最好利用重复的结构,做这样的事情,把所有日期放在一个表中,把它连接到你的主数据中,然后你可以使用更干净的代码来获得结果。这应该非常快,因为连接非常高效,然后你只需要进行一次矢量化计算

library(lubridate)
lookup_table <- tribble(
~termCode, ~Early, ~Mid,
"SP1", 20200131, 20200308,
"SP2", 20200331, 20200605,
"SP3", 20200424, 20200531) %>%
mutate(across(Early:Mid, ymd))  #lubridate::ymd
tttotalCam2020 %>%
left_join(lookup_table) %>%
mutate(COURSE_PERIOD = case_when(
viewTime <= Early ~ "Early",
viewTime <= Mid ~ "Mid",
TRUE ~ "Late"
))

我想您正在寻找mapply()函数。

https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/mapply

使用mapply(),您可以定义具有多个输入值(例如,列中的条件(的函数,并在不需要for循环的情况下运行它。

最新更新