我正在进行AAB测试,这意味着测试中有两个对照组,以确保种群分布正确。结果告诉我,复制的对照组比原始组显示出积极的结果。
我在两个应用程序上重复了多次测试,但原始组和重复的对照组之间的结果仍然不同。
这有什么可能的原因吗?
相同对照组之间的一些百分比的在线现场实验将显示统计上的赢家。这被称为假阳性。Firebase支持涵盖了此主题。
不同的统计框架有不同的管理错误率(和假阳性率(的方法,例如:
Leanpullum
优化
如果您多次遇到假阳性,从统计数据来看,这是不可能的,通常指向实现错误或软件错误。
免责声明:我在Optimizely工作。