我正在分析按日期和时间列(Sdate)排序的csv文件中的数据,如下所示(注意:这都是一列):Sdate01/01/2016 00:0001/01/2016 01:0001/01/2016 02:00等
然而,当要分析的数据被分成15分钟的间隔时。示例如下:
Sdate01/01/2016 00:00今日01/01/201601/01/2016 00:30等
输出似乎每小时对我的数据进行分组,并且在继续时也会丢失数据。
目前我正在读取目录中的所有csv文件并对它们进行排序。我用的是pd。To_datetime函数,用于小时间隔,但不用于15分钟间隔:
for file_ in allFiles:
df = df = pd.read_csv(file_,index_col=None, header=0, low_memory=False)
df['Sdate'] = pd.to_datetime(df['Sdate'])
df.reset_index()
list_.append(df)
有人知道这是否是pd的问题吗?或者可能是我每小时分组内容的方式有问题,见下文:
hourly = grouped.aggregate(np.sum).reset_index()
任何帮助都将非常感激。谢谢你!
熊猫的解决方法pandas.read_csv()函数有一个关键字参数parse_dates
你可以使用默认的date_parser (dateutil.parser.parser)将字符串、浮点数或整数转换成日期时间
pd.read_csv(file, header=None, names=headers, dtype=dtypes, parse_dates='Sdate')