对于两个以上实验的百分比度量,应该使用什么显著性检验?
例如,Version | Clicks | Impressions
A | 5 | 1,763
B | 4 | 1,672
C | 2 | 1,689
我们有多确定版本A真的优于其他两个?
过去,我个人在顶部和底部之间进行了成对g检验,将置信度乘以n选2的蒙混系数,以解释存在n选2可能的最极端配对的事实。从理论上讲,这是过于保守的,但它适用于我。