如何使用大熊猫datetime确定EDA期间时间的差异



我在熊猫中有几百万个日期对象。我在文档中找不到探索性数据分析(EDA(的任何东西。

看来每一行在任一数据框架中都有相同的时间:

df1

Timestamp('2018-02-20 00:00:00'(

df2 时间戳('2018-01-01 05:00:00'(

是否有一种方法可以使用熊猫通过每一列并检查小时/分钟/秒之间是否有差异?

我发现的一切都是关于计算时间之间的差异。

我尝试了几种基本技术,但是我回来的只是简单的描述数字。

min(data['date'])
data['date'].nunique()

我尝试过:

 print(data['TIMESTAMP_UTC'])

确实显示了一些时间不同的日期,但我需要一种管理此信息的方法:

0         2018-01-16 05:00:00
1         2018-05-04 04:00:00
2         2018-10-22 04:00:00
3         2018-01-02 05:00:00
4         2018-01-03 05:00:00
5         2018-01-04 05:00:00
6         2018-01-05 05:00:00
......

理想情况下,我正在寻找可以吐出与其他所有事物的日期的.value_counts((

您可以使用.apply()方法将格式从str转换为datetime。然后,您使用DateTime处理它。

将您的列值转换为DateTime:

df['TIMESTAMP_UTC'] = pd.to_datetime(df['TIMESTAMP_UTC'] )
df['TIMESTAMP_UTC'] = df['TIMESTAMP_UTC'].apply(lambda x: datetime.strptime(x, "%Y-%b-%d %H:%M:%S"))

然后,您可以使用datetime的功率比较或提取这样的信息来提取小时:

df['TIMESTAMP_UTC'].dt.day

最新更新