r-使用具有特殊时区格式的strptime%z

我正在处理从Teradata导出的.csv数据。几个列最初是带有时区的时间戳，所以在R中加载.csv后，我想将这些列（作为字符串加载）转换为POSIXlt或POSIXct。我使用的是strptime，但.csv文件中的时区格式与strptime所期望的不匹配。例如，它需要-0400，但.csv的格式为-04:00，其中冒号分隔小时和分钟。

我可以切除结肠，但这是一个额外的步骤，如果可能的话，我想避免并发症。有没有办法告诉strptime使用不同的时区格式（%z）？

这里有一个例子：

## Example data:
x <- c("2011-10-12 22:17:13.860746-04:00", "2011-10-12 22:17:13.860746+00:00")
format <- "%Y-%m-%d %H:%M:%OS%z"
## Doesn't work:
strptime(x,format)
## [1] NA NA
## Ignores the timezone:
as.POSIXct(x)
## [1] "2011-10-12 22:17:13 EDT" "2011-10-12 22:17:13 EDT"
## Remove the last colon:
x2 <- gsub("(.*):", "\1", x)
x2
## [1] "2011-10-12 22:17:13.860746-0400" "2011-10-12 22:17:13.860746+0000"
## This works, but requires extra processing (removing the colon)
strptime(x2,format)
## [1] "2011-10-12 22:17:13" "2011-10-12 18:17:13"

因此，我希望使用类似strptime(x,"%Y-%m-%d %H:%M:%OS%zz")的东西来实现最后一个结果，其中%zz是用于识别-04:00格式的时区的自定义表达式。或者CCD_ 10可能更好。

如果这不可能，有人有一个灵活/灵活的函数可以将字符串（各种格式）转换为data.frame/data.table的多列的日期吗？

事实证明lubridate可以处理这种格式：

library(lubridate)
ymd_hms(x)
## [1] "2011-10-13 02:17:13 UTC" "2011-10-12 22:17:13 UTC"

或者，在本地时区显示：

with_tz(ymd_hms(x))
## [1] "2011-10-12 22:17:13 EDT" "2011-10-12 18:17:13 EDT"

为了获得更大的灵活性（仍使用lubridate）：

parse_date_time(x, "%Y-%m-%d %H:%M:%OS%z")

对于更快的速度（在lubridate选项中）：

lubridate:::.strptime(x, "%Y-%m-%d %H:%M:%OS%OO")

时间安排：

microbenchmark(
  ymd_hms(x),
  parse_date_time(x, "%Y-%m-%d %H:%M:%OS%z"),
  lubridate:::.strptime(x, "%Y-%m-%d %H:%M:%OS%OO"),
  strptime(gsub("(.*):", "\1", x), format)
)
## Unit: microseconds
##                                               expr      min       lq       mean    median        uq      max neval
##                                         ymd_hms(x) 1523.819 1578.495 1715.14577 1629.5385 1744.3695 2850.393   100
##         parse_date_time(x, "%Y-%m-%d %H:%M:%OS%z") 1108.676 1150.633 1273.77301 1190.3315 1264.8050 5947.204   100
##  lubridate:::.strptime(x, "%Y-%m-%d %H:%M:%OS%OO")   89.838  103.390  112.45338  107.8425  115.2265  216.512   100
##        strptime(gsub("(.*):", "\\1", x), format)   46.716   58.294   71.90934   69.9415   86.5860  105.044   100

我刚刚遇到这个问题，试图实现同样的目标。

正如您所提到的，我发现唯一可以修复它的方法是使用regex来删除冒号。您可以稍微收紧正则表达式，以避免在替换中出错。

x2 <- gsub('^([0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2}\.[0-9]+[+-][0-9]{2}):([0-9]{2})$',
           '\1\2',
           x)
# [1] "2011-10-12 22:17:13.860746-0400" "2011-10-12 22:17:13.860746+0000"

相关内容

最新更新

热门标签：