辩论:平均值对平均值的平均值



我知道这是个老问题。你们可能会得出这样的结论:平均值的平均值总是错误的。考虑以下示例:你想通过了解篮子的份额来了解超市的购买行为。对于每个订单,您可以在产品类别中共享%。数据集可以是这样的:order_id、杂货%、烟草%、布料%等。份额%基于订单金额。每一行都是一个唯一的order_id。

如果你把所有的杂货数量加起来,除以总订单数量,你确实可以得到平均的杂货份额。如果有更多的背景,比如说,这家超市的VIP占10%,他们每订单可以花费100万(只是假设(。因此,结果很可能接近VIP结果。

如果我对玩家的平均行为更感兴趣,它似乎使用了平均指标的平均值,即:(杂货%+杂货%+…(/订单号。

有什么想法吗?

所以让我试着用一个例子来回答你的问题。

比方说,超市里只买了三件东西。

购买1个

Grocery Amount = 30$ (60%)
Cloth Amount = 20$   (40%)

购买2

Grocery Amount = 10$ (50%)
Cloth Amount = 10$   (50%)

购买3

Grocery Amount = 5$ (25%)
Cloth Amount = 15$  (75%)

现在让我们计算我们的指标:

方法";平均值的平均值">

最终答案=(25%+50%+60%(/3=45%

方法";平均值">

最终答案=(5美元+10美元+30美元(*100/140美元=32.14%

结论

给出上面的例子,显然;平均值";这种方法可以得到更准确的结果。但考虑到您的用例,您可以使用其中的任何一个。

希望这能有所帮助!

相关内容

  • 没有找到相关文章

最新更新