我知道这是个老问题。你们可能会得出这样的结论:平均值的平均值总是错误的。考虑以下示例:你想通过了解篮子的份额来了解超市的购买行为。对于每个订单,您可以在产品类别中共享%。数据集可以是这样的:order_id、杂货%、烟草%、布料%等。份额%基于订单金额。每一行都是一个唯一的order_id。
如果你把所有的杂货数量加起来,除以总订单数量,你确实可以得到平均的杂货份额。如果有更多的背景,比如说,这家超市的VIP占10%,他们每订单可以花费100万(只是假设(。因此,结果很可能接近VIP结果。
如果我对玩家的平均行为更感兴趣,它似乎使用了平均指标的平均值,即:(杂货%+杂货%+…(/订单号。
有什么想法吗?
所以让我试着用一个例子来回答你的问题。
比方说,超市里只买了三件东西。
购买1个
Grocery Amount = 30$ (60%)
Cloth Amount = 20$ (40%)
购买2
Grocery Amount = 10$ (50%)
Cloth Amount = 10$ (50%)
购买3
Grocery Amount = 5$ (25%)
Cloth Amount = 15$ (75%)
现在让我们计算我们的指标:
方法";平均值的平均值">
最终答案=(25%+50%+60%(/3=45%
方法";平均值">
最终答案=(5美元+10美元+30美元(*100/140美元=32.14%
结论
给出上面的例子,显然;平均值";这种方法可以得到更准确的结果。但考虑到您的用例,您可以使用其中的任何一个。
希望这能有所帮助!