我在CSV文件中有一个数据集,我正在将其加载到Pandas数据帧中,以便按日期+时间进行索引。原始数据是纽约市时间(尽管它没有反映在原始数据中),我需要从伦敦时间的角度进行分析。
在将索引加载到数据帧中后,我使索引 EST 时区感知,然后将其转换为欧洲/伦敦时区。它似乎工作正常,但不适用于进入过渡期的日期,在此期间,伦敦和纽约之间的时差是 4 小时,而不是 5 小时(就像现在的 3 月下旬一样)。
CSV 文件中的数据如下所示:
2/15/16 10:00 1
2/15/16 10:01 2
3/24/16 10:00 3
3/24/16 10:01 4
3/24/16 10:02 5
3/24/16 10:03 6
3/24/16 11:00 7
3/24/16 11:01 8
这是简化的代码:
import datetime
import pandas as pd
df = pd.read_csv('data/dates.csv', usecols=[0, 1, 2], header=None)
df.columns = ['dt', 'tm', 'val']
df.set_index(pd.DatetimeIndex(df.dt + ' ' + df.tm), inplace=True)
del df['dt']
del df['tm']
print(df)
df.index = df.index.tz_localize('EST', ambiguous='infer').tz_convert('Europe/London')
print(df)
第一个print()
语句的输出如下所示:
val
2016-02-15 10:00:00 1
2016-02-15 10:01:00 2
2016-03-24 10:00:00 3
2016-03-24 10:01:00 4
2016-03-24 10:02:00 5
2016-03-24 10:03:00 6
2016-03-24 11:00:00 7
2016-03-24 11:01:00 8
第二个print()
的输出如下:
val
2016-02-15 15:00:00+00:00 1
2016-02-15 15:01:00+00:00 2
2016-03-24 15:00:00+00:00 3
2016-03-24 15:01:00+00:00 4
2016-03-24 15:02:00+00:00 5
2016-03-24 15:03:00+00:00 6
2016-03-24 16:00:00+00:00 7
2016-03-24 16:01:00+00:00 8
我的问题是,虽然正常的 +5 小时调整在 2016 年 2 月 15 日正确完成,但在 2016 年 3 月 24 日完成不正确,因为该日期属于 NYC-LDN 时差为 4 小时而不是 5 小时的过渡期。
我已经阅读了许多关于如何正确调整的文章,并希望ambiguous='infer'
位可能会有所帮助,但似乎我仍然做错了?
最后,如果上述方法难以实现,我不介意手动解决方法。我最终需要做的是根据小时和分钟(从伦敦时间的角度来看)将数据帧的子集选择到另一个数据帧中。我目前是这样做的:
dfSelected = df[(df.index.time >= datetime.time(15, 1))][['val']]
我想尝试一些手动和丑陋的东西,比如:
shortWnd = [datetime.date(2016, 3, 24), datetime.date(2016, 3, 23)] # etc....
dfSelected = df[(df.index.time >= datetime.time(15, 1) if (df.index.date in shortWnd) else (df.index.time >= datetime.time(14, 1) ))][['val']]
因此,我根据源数据帧中的每一行是否在过渡期内手动调整选择窗口,但我收到此错误:
ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()
关于如何做得更好的任何想法?!
您需要使用美国/东部作为您的时区。EST(东部标准时间)不考虑 DST。
In [47]: pd.Timestamp('20160315').tz_localize('EST')
Out[47]: Timestamp('2016-03-15 00:00:00-0500', tz='EST')
In [48]: pd.Timestamp('20160315').tz_localize('US/Eastern')
Out[48]: Timestamp('2016-03-15 00:00:00-0400', tz='US/Eastern')
In [29]: df = pd.read_csv(StringIO(data), header=None, sep='s+', parse_dates=[[0, 1]])
In [30]: df.columns = ['date', 'value']
In [31]: df
Out[31]:
date value
0 2016-02-15 10:00:00 1
1 2016-02-15 10:01:00 2
2 2016-03-24 10:00:00 3
3 2016-03-24 10:01:00 4
4 2016-03-24 10:02:00 5
5 2016-03-24 10:03:00 6
6 2016-03-24 11:00:00 7
7 2016-03-24 11:01:00 8
In [32]: df['date_tz'] = df['date'].dt.tz_localize('US/Eastern').dt.tz_convert('Europe/London')
In [33]: df['date_tz2'] = df['date'].dt.tz_localize('EST').dt.tz_convert('Europe/London')
In [34]: df
Out[34]:
date value date_tz date_tz2
0 2016-02-15 10:00:00 1 2016-02-15 15:00:00+00:00 2016-02-15 15:00:00+00:00
1 2016-02-15 10:01:00 2 2016-02-15 15:01:00+00:00 2016-02-15 15:01:00+00:00
2 2016-03-24 10:00:00 3 2016-03-24 14:00:00+00:00 2016-03-24 15:00:00+00:00
3 2016-03-24 10:01:00 4 2016-03-24 14:01:00+00:00 2016-03-24 15:01:00+00:00
4 2016-03-24 10:02:00 5 2016-03-24 14:02:00+00:00 2016-03-24 15:02:00+00:00
5 2016-03-24 10:03:00 6 2016-03-24 14:03:00+00:00 2016-03-24 15:03:00+00:00
6 2016-03-24 11:00:00 7 2016-03-24 15:00:00+00:00 2016-03-24 16:00:00+00:00
7 2016-03-24 11:01:00 8 2016-03-24 15:01:00+00:00 2016-03-24 16:01:00+00:00
我只能为您提供一点帮助 - 我不知道时区转换(尽管我怀疑如果您在那里找到正确的选项,它会解决这个问题)
我确实知道为什么您最后的"快速而肮脏"的手动修复不起作用。 你不能使用if,else或in来比较这样的熊猫系列。
这:
shortWnd = [datetime.date(2016, 3, 24), datetime.date(2016, 3, 23)] # etc....
dfSelected = df[(df.index.time >= datetime.time(15, 1) if (df.index.date in shortWnd) else (df.index.time >= datetime.time(14, 1) ))][['val']]
应该是这样的:
dfSelected = df[((df.index.time >= datetime.time(15, 1) & (df.index.date.isin(shortWnd))) | (df.index.time >= datetime.time(14, 1) ))][['val']]
但我可能误解了你的逻辑。
你需要重写你的if,else和使用&|和df.isin
祝你好运!