如何使用panda根据自定义间隔提取时间序列的子集



我有一个一个月内每天24小时每分钟的外汇价格数据集。然而,外汇市场实际上只在周日17:00至周五16:00开放,这两个时间之间的数据只是用周五晚上的最后记录值填充。我正试图去掉这个填充,只留下市场开放的数据。

我已经走了几十条死胡同,完全失去了树木的木材。

根据指定的时间框架返回数据的子集非常简单:

import pandas as pd
df = pd.read_csv(tickdatafile,index_col='dtime',parse_dates=True)
# Return all rows for times between 12:00 and 16:00
df = df.between_time('12:00','16:00')

前两行从csv文件创建数据帧,将"dtime"列分配为索引,并将其解析为日期时间对象。第三行返回12:00到16:00之间的所有行,无论是哪一天。

一个简单的单行解决方案看起来像(伪代码):

df = df.between_customTimeRange('Sun 17:00','Fri 16:00')

但显然,这是行不通的。

有什么简单的东西我完全忽略了吗?

编辑:我已经将EKomarov和Alexander的答案结合到以下解决方案中,从开始到结束:

import pandas as pd
df = pd.read_csv(tickdatafile,index_col='dtime',parse_dates=True)
mask = df[ ( (   df.index.weekday == 6 ) & ( df.index.hour < 17 ) )# Sunday pre 17:00
|   (   df.index.weekday == 5 )                           # All of Saturday
| ( (   df.index.weekday == 4 )                           # Friday
&                         (     ( df.index.hour >= 16 ) # Friday 16.00 onwards
&  ~( ( df.index.hour == 16 )
& ( df.index.minute == 0 )# Exclude 16.00 itself
)
)
)
]
df = df[~df.index.isin(mask.index)] # return all data not in mask
df.to_csv(tradingdaysonly) 

我使用了与@EKomarov相同的方法,但处理时间不同。Stamps是你的pd.Timestamp索引。首先创建您不想要的日期/时间掩码,然后将其反转。请注意,星期一的索引为Monday=0,Sunday=6。

mask = stamps[((stamps.dayofweek == 6) & (stamps.hour < 17))  # Sunday before 17:00
| (stamps.dayofweek == 5)   # All of Saturday
| ((stamps.dayofweek == 4)  # Friday after 16:00
& (stamps.hour >= 16) 
& ~((stamps.hour == 16) & (stamps.minute == 0)))]  # Exclude 16:00
stamps[~stamps.isin(mask)]

这里有一个可能的解决方案。

我会把这个问题简化为处理不需要的时间戳。这些"错误"的时间戳是在周五-16:00到周日-17:00之间。

假设你有

data = pd.Series( np.random.randn(100), index = pd.date_range('2015-04-01', periods = 100, freq = '6h') )

让我们找到"错误"的时间戳:

paddedTimestamps = ( ( (data.index.dayofweek == 4) & (data.index.time > datetime.time(16,0)) ) | 
(data.index.dayofweek == 5) | 
( (data.index.dayofweek == 6) & (data.index.time < datetime.time(17,0)) ) )

现在paddedTimestamps对于时间戳"错误"的每个整数位置都包含True,所以我们将其反转并查询数据:

nonPaddedData = data[~paddedTimestamps]

最新更新