我正试图从csv文件中获取不规则时间序列的日平均值。
csv文件中的数据从2013年9月20日13:00开始,一直运行到2014年1月14日10:57:
Time Values
20/09/2013 13:00 5.133540
20/09/2013 13:01 5.144993
20/09/2013 13:02 5.158208
20/09/2013 13:03 5.170542
20/09/2013 13:04 5.167899
20/09/2013 13:25 5.168780
20/09/2013 13:26 5.179351
...
我用导入它们
import pandas as pd
data = pd.read_csv('<file name>', parse_dates={'Timestamp':'Time']},index_col='Timestamp')
这导致
Values
Timestamp
2013-09-20 13:00:00 5.133540
2013-09-20 13:01:00 5.144993
2013-09-20 13:02:00 5.158208
2013-09-20 13:03:00 5.170542
2013-09-20 13:04:00 5.167899
2013-09-20 13:25:00 5.168780
2013-09-20 13:26:00 5.179351
...
然后我做
dataDailyAv = data.resample('D', how = 'mean')
这导致
Values
Timestamp
2013-01-10 8.623744
2013-01-11 NaN
2013-01-12 NaN
2013-01-13 NaN
2013-01-14 NaN
...
换句话说,结果包含原始数据中没有出现的日期,对于其中一些日期(例如2013年1月10日),甚至出现了一个值。
有什么问题吗?
谢谢。
编辑:显然,对日期的解析出现了问题:2013年10月1日被解释为2013年1月10日,而不是2013年10月份1日。这可以通过编辑csv文件中的日期格式来解决,但有没有办法在read_csv中指定日期格式?
您需要dayfirst=True
,这是read_csv文档中列出的众多调整之一。