熊猫将带有 unix 时间戳(以毫秒为单位)的行转换为日期时间

我需要处理大量的CSV文件，其中时间戳始终是一个字符串，表示以毫秒为单位的unix时间戳。我找不到有效修改这些列的方法。

这就是我想出的，但是这当然只复制了该列，我必须以某种方式将其放回原始数据集。我相信在创建DataFrame时可以完成？

import sys
if sys.version_info[0] < 3:
    from StringIO import StringIO
else:
    from io import StringIO
import pandas as pd
data = 'RUN,UNIXTIME,VALUEn1,1447160702320,10n2,1447160702364,20n3,1447160722364,42'
df = pd.read_csv(StringIO(data))
convert = lambda x: datetime.datetime.fromtimestamp(x / 1e3)
converted_df = df['UNIXTIME'].apply(convert)

这将选择列"UNIXTIME"并将其从

0    1447160702320
1    1447160702364
2    1447160722364
Name: UNIXTIME, dtype: int64

进入这个

0   2015-11-10 14:05:02.320
1   2015-11-10 14:05:02.364
2   2015-11-10 14:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

但是，我想使用 pd.apply() 之类的东西来获取与转换后的列一起返回的整个数据集，或者正如我已经写过的，只需在从 CSV 生成数据帧时创建日期时间。

您可以使用

to_datetime和传递arg unit='ms'作为后处理步骤执行此操作：

In [5]:
df['UNIXTIME'] = pd.to_datetime(df['UNIXTIME'], unit='ms')
df
Out[5]:
   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

我使用@EdChum解决方案，但我添加了时区管理：

df['UNIXTIME']=pd.DatetimeIndex(pd.to_datetime(pd['UNIXTIME'], unit='ms'))
                 .tz_localize('UTC' )
                 .tz_convert('America/New_York')

tz_localize表示时间戳应被视为与"UTC"有关，然后tz_convert实际上将日期/时间移动到正确的时区（在本例中为"美国/New_York"）。

请注意，它已转换为DatetimeIndex，因为tz_方法仅适用于序列的索引。由于熊猫 0.15 可以使用.dt：

df['UNIXTIME']=pd.to_datetime(df['UNIXTIME'], unit='ms')
                 .dt.tz_localize('UTC' )
                 .dt.tz_convert('America/New_York')

如果您知道时间戳单位，请使用Series.astype：

df['UNIXTIME'].astype('datetime64[ms]')
0   2015-11-10 13:05:02.320
1   2015-11-10 13:05:02.364
2   2015-11-10 13:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

若要返回整个数据帧，请使用

df.astype({'UNIXTIME': 'datetime64[ms]'})
   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

我想我想出

了一个解决方案：

convert = lambda x: datetime.datetime.fromtimestamp(float(x) / 1e3)
df = pd.read_csv(StringIO(data), parse_dates=['UNIXTIME'], date_parser=convert)

我仍然不确定这是否是最好的。

相关内容

最新更新

热门标签：