r语言 - 用for循环替换列中的日期



我正在帮助某人尝试获得他们想要的解决方案,而无需对他们提出的代码进行太多更改。我知道for循环是不必要的。例如,您可以通过将datenumeric <- as.Date(datenumeric, "%Y%m%d")添加到convertdatereadable函数中,然后将其传递给lapply来解决它。我在使用for循环复制相同的结果时遇到了麻烦。

dat有一个date列,double值如下:

1947.01
1947.02
1947.03
1947.04
1947.05

请求将date列转换为日期格式format = "%Y%m%d"

<<p>可再生的例子/strong>
dat <- structure(list(date = c(1947.01000976562, 1947.02001953125, 1947.03002929688, 
1947.0400390625, 1947.05004882812), sp500 = c(15.210000038147, 
15.8000001907349, 15.1599998474121, 14.6000003814697, 14.3400001525879
), divyld = c(4.48999977111816, 4.38000011444092, 4.6100001335144, 
4.75, 5.05000019073486), i3 = c(0.379999995231628, 0.379999995231628, 
0.379999995231628, 0.379999995231628, 0.379999995231628), ip = c(22.3999996185303, 
22.5, 22.6000003814697, 22.5, 22.6000003814697), pcsp = c(NA, 
46.5483322143555, -48.6076202392578, -44.3271369934082, -21.3698806762695
), rsp500 = c(NA, 50.9283332824707, -43.9976196289062, -39.5771369934082, 
-16.319881439209), pcip = c(NA, 5.35716342926025, 5.33335399627686, 
-5.30975437164307, 5.33335399627686), ci3 = c(NA, 0, 0, 0, 0), 
ci3_1 = c(NA, NA, 0, 0, 0), ci3_2 = c(NA, NA, NA, 0, 0), 
pcip_1 = c(NA, NA, 5.35716342926025, 5.33335399627686, -5.30975437164307
), pcip_2 = c(NA, NA, NA, 5.35716342926025, 5.33335399627686
), pcip_3 = c(NA, NA, NA, NA, 5.35716342926025), pcsp_1 = c(NA, 
NA, 46.5483322143555, -48.6076202392578, -44.3271369934082
), pcsp_2 = c(NA, NA, NA, 46.5483322143555, -48.6076202392578
), pcsp_3 = c(NA, NA, NA, NA, 46.5483322143555), month = c(-156, 
-155, -154, -153, -152)), row.names = c(NA, 5L), class = "data.frame")

包含convertdatereadable函数的代码

convertdatereadable <- function(datenumeric){
datenumeric <- trunc(datenumeric * 10000 + 1)
datenumeric <- as.character(datenumeric)
return(datenumeric)
}
dat[1] <- lapply(dat[1], convertdatereadable)

for (n in 1:nrow(dat)){
dat$date <- as.Date(dat[n, 1], format = "%Y%m%d")
}

当前状态下的for循环输出正确的格式,但不幸的是,它复制了所有5行的第一个日期。

电流输出错误


dat[1]
#>         date
#> 1 1947-01-01
#> 2 1947-01-01
#> 3 1947-01-01
#> 4 1947-01-01
#> 5 1947-01-01

保持for循环的期望输出


dat[1]
#>         date
#> 1 1947-01-01
#> 2 1947-02-01
#> 3 1947-03-01
#> 4 1947-04-01
#> 5 1947-05-01

我以为这样可以,但是不行:

for (n in 1:nrow(dat)){
dat[n, 1] <- as.Date(dat[n, 1], format = "%Y%m%d")
}

正如其他人所说,使用as.Date(..., format="%Y%m%d")而不是循环是实现此目的的方法。

但是要理解这里发生了什么,请将其分解并检查每行之后的输出状态:

首先,让我们将循环修改为通过n对两边进行索引,以便依次覆盖每个值:

for (n in 1:nrow(dat)){
dat$date[n] <- as.Date(dat$date[n], format = "%Y%m%d")
}

这将产生自1970-01-01以来的天数的字符表示(日期在R中存储为数字版本):

dat$date
#[1] "-8401" "-8370" "-8342" "-8311" "-8281"
class(dat$date)
#[1] "character"

为什么是字符而不是数字?因为您使用的是]<-而不是<-,也就是说,您没有覆盖整个dat$date列,而是每个dat$date[1],dat$date[2]等。在这种情况下,这将保持源class,因为数字数据总是可以强制转换为字符,但字符数据不能强制转换为数字。例如:

x <- c("a","b","c")
x[1] <- 1
x
#[1] "1" "b" "c"


x <- c(1,2,3)
x[1] <- "a"
x
#[1] "a" "2" "3"

如果你覆盖了整个对象,类将会改变:

x <- c("a","b","c")
x <- c(1,2,3)
x
#[1] 1 2 3

然后需要强制类返回日期:

class(dat$date) <- "Date"
dat$date
#[1] "1947-01-01" "1947-02-01" "1947-03-01" "1947-04-01" "1947-05-01"
class(dat$date)
#[1] "Date"

也可以通过显式转换得到相同的结果:

dat$date <- as.Date(as.numeric(dat$date), origin="1970-01-01")

差不多完成了。您只需要在循环中更改变量,如下所示:

for (n in 1:nrow(dat)){
dat$crcteddate <- as.Date(dat$date, format = "%Y%m%d")
}

这将创建一个名为'crcteddate'的列,并给出以下输出:

"1947-01-01" "1947-02-01" "1947-03-01" "1947-04-01" "1947-05-01"

您错误地调用了日期列data [n,1],而不是直接调用data $date。

最新更新