pandas.resample()不适用于某些示例.为什么



问题

  • 我希望Pandas.resample()方法的结果具有两个级别的索引。正如您可以在下面的示例中查看的那样,good_example_df的重新采样会产生2级索引。
  • 当我将index_list的第二个元素从datetime(2020,1,2,12,39,59)更改为datetime(2020,1,3,12,39,59)时,.resample((方法只给我一个级别的索引。用CCD_ 6给出了算例。这是我不想发生的事情。
  • 如何使.resample()方法的结果始终具有2级索引,就像good_example_df所做的那样?
  • 我问这个问题的原因是我希望重采样方法的结果是一致的。我不希望该方法的结果因输入的不同而不同

代码示例

import pandas as pd
from datetime import datetime, time
index_list = [datetime(2020,1,2,2,43,59), datetime(2020,1,2,12,39,59),datetime(2020,1,3,21,42,59),
datetime(2020,1,4,2,53,59), datetime(2020,1,4,19,17,59)]
data_dict = {'return': [1.003, 1.02, 1.06, 1.02, 1.03],
'stock' : ['AMZN', 'APPL', 'NVDA', 'MSFT', 'AMZN']}
good_example_df = pd.DataFrame(data = data_dict, index = index_list)
good_example_df
>>                    return  stock
2020-01-02  2:43:59   1.003    AMZN
2020-01-02 12:39:59   1.020    APPL
2020-01-03 21:42:59   1.060    NVDA
2020-01-04 02:53:59   1.020    MSFT
2020-01-04 19:17:59   1.030    AMZN
good_example_df.resample("D").apply(lambda x: x[:2])
>>                               return  stock
2020-01-02  2020-01-02 02:43:59   1.003   AMZN
2020-01-02 12:39:59   1.020   APPL
2020-01-03  2020-01-03 21:42:59   1.060   NVDA
2020-01-04  2020-01-04 02:53:59   1.020   MSFT
2020-01-04 19:17:59   1.030   AMZN
new_index_list = [datetime(2020,1,2,2,43,59), datetime(2020,1,3,12,39,59),datetime(2020,1,3,21,42,59),
datetime(2020,1,4,2,53,59), datetime(2020,1,4,19,17,59)]
bad_example_df = pd.DataFrame(data = data_dict, index = new_index_list)
bad_example_df
>>                    return  stock
2020-01-02  2:43:59   1.003    AMZN
2020-01-03 12:39:59   1.020    APPL
2020-01-03 21:42:59   1.060    NVDA
2020-01-04 02:53:59   1.020    MSFT
2020-01-04 19:17:59   1.030    AMZN
bad_example_df.resample("D").apply(lambda x: x[:2])
>>>                return          stock
2020-01-02         1.003            AMZN
2020-01-03  [1.02, 1.06]    [APPL, NVDA]
2020-01-04  [1.02, 1.03]    [MSFT, AMZN]

您的输出基本上是相同的数据,但有一个额外的索引,时间四舍五入到天如果这正是您想要实现的目标,请不要使用resample。你不需要它,你可以重新设置索引:

In[]:
bad_example_df.set_index([bad_example_df.index.floor('D'), bad_example_df.index])
Out[]:
return stock
2020-01-02 2020-01-02 02:43:59   1.003  AMZN
2020-01-03 2020-01-03 12:39:59   1.020  APPL
2020-01-03 21:42:59   1.060  NVDA
2020-01-04 2020-01-04 02:53:59   1.020  MSFT
2020-01-04 19:17:59   1.030  AMZN

OTOH,您的lambda使您看起来像是在尝试获取每天的前两个值。如果是这样的话,我认为apply不是您想要使用的(可能是resample().apply()迭代方式的b/c,请参阅此处(。注意,如果你把第一个日期改为1月1日,你会变得更糟,出乎意料,输出:

In[]:
third_index_list = [datetime(2020,1,1,2,43,59), datetime(2020,1,2,12,39,59),datetime(2020,1,3,21,42,59),
datetime(2020,1,4,2,53,59), datetime(2020,1,4,19,17,59)]
terrible_example_df = pd.DataFrame(data = data_dict, index = third_index_list)
terrible_example_df.resample("D").apply(lambda x: x[:2])
Out[]:
return         stock
2020-01-01         1.003          AMZN
2020-01-02          1.02          APPL
2020-01-03          1.06          NVDA
2020-01-04  [1.02, 1.03]  [MSFT, AMZN]
#now the dtype is object and lots of operations will fail!

所以我认为good_example_df恰好给出了预期的输出,而bad_example_df恰好给出了意外但仍然有效的输出,但这两者都可能是对resample().apply()的不当使用。TBH我不明白apply在每个例子中的不同之处。

相反,使用groupbygroupby().apply()(不同于重采样apply!(可以始终如一地(据我所知(为您提供所需的输出:

In[]:
bad_example_df.groupby(pd.Grouper(freq='D')).apply(lambda x: x[:2])
Out[]: 
return stock
2020-01-02 2020-01-02 02:43:59   1.003  AMZN
2020-01-03 2020-01-03 12:39:59   1.020  APPL
2020-01-03 21:42:59   1.060  NVDA
2020-01-04 2020-01-04 02:53:59   1.020  MSFT
2020-01-04 19:17:59   1.030  AMZN
#works for terrible_example_df as well

还有TBH,我不明白为什么要创建两个索引,但它似乎有效!

相关内容

  • 没有找到相关文章

最新更新