如何使用groupby函数计算列的四分位数统计



我有1分钟间隔的数据,我想将粒度更改为5分钟,并使用.groupby计算基本数据统计,例如:

df2 = df1.groupby(pd.Grouper(freq='5Min',closed='right',label='right')).agg({
"value1":  "mean", "value2": "max",
"value3": "quantile"})

我也想获得四分位数/分位数数据,但无法指定特定的分位数点。默认值为第50个分位数。如何获得value3的第75个分位数?

传递给agg的值不必是字符串:它们可以是其他函数。您可以定义像这样的自定义函数
def q75(series):
return series.quantile(0.75)

然后像一样将其传递给CCD_ 2

df2 = df1.groupby(pd.Grouper(freq='5Min',closed='right',label='right')).agg({
"value1":  "mean", "value2": "max",
"value3": q75})

您甚至可以通过在列表中传递同一统计数据来计算多个数量:

df2 = df1.groupby(pd.Grouper(freq='5Min', closed='right', label='right')).agg({
"value1": "mean", "value2": "max", "value3": [q25, q50, q75]})

您可以使用groupby.quantile函数。您将能够指定精确的分位数,甚至可以选择插值类型。我不确定是否有可能一步到位。可能需要单独进行,然后在df中添加一个具有四分位数的列。

文档链接:https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.quantile.html

最新更新