我有1分钟间隔的数据,我想将粒度更改为5分钟,并使用.groupby计算基本数据统计,例如:
df2 = df1.groupby(pd.Grouper(freq='5Min',closed='right',label='right')).agg({
"value1": "mean", "value2": "max",
"value3": "quantile"})
我也想获得四分位数/分位数数据,但无法指定特定的分位数点。默认值为第50个分位数。如何获得value3的第75个分位数?
agg
的值不必是字符串:它们可以是其他函数。您可以定义像这样的自定义函数
def q75(series):
return series.quantile(0.75)
然后像一样将其传递给CCD_ 2
df2 = df1.groupby(pd.Grouper(freq='5Min',closed='right',label='right')).agg({
"value1": "mean", "value2": "max",
"value3": q75})
您甚至可以通过在列表中传递同一统计数据来计算多个数量:
df2 = df1.groupby(pd.Grouper(freq='5Min', closed='right', label='right')).agg({
"value1": "mean", "value2": "max", "value3": [q25, q50, q75]})
您可以使用groupby.quantile
函数。您将能够指定精确的分位数,甚至可以选择插值类型。我不确定是否有可能一步到位。可能需要单独进行,然后在df中添加一个具有四分位数的列。
文档链接:https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.quantile.html