在scipy中的p值.统计数据并不能反映现实



我不确定这是一个关于Stack Overflow还是Math Stack Exchange的问题。

我有关于汽车A碰撞成本的数据,以及关于汽车b碰撞成本的数据

B类事故15 992起,总损失19 890 980起。汽车碰撞的平均成本为1541.808美元。

则A类事故发生2760起,总损失为4 255 390起。汽车碰撞的平均成本为1243.808美元。

很明显,汽车A的碰撞成本均值应该低于汽车b的碰撞成本均值。我想用t检验来检验这个。零假设是均值相等。alpha值为5%

但是,当我在python

中运行以下命令时
ttest_ind(table[B], table2[A],  alternative="less",equal_var=False)

我得到的结果是:(p值将表明汽车B的碰撞成本的平均值不小于A的平均值,这是没有意义的)。

Ttest_indResult(statistic=3.417269886834147, pvalue=0.9996071028578007)

但是,如果我运行这个(不带可选项)

ttest_ind(table[B], table2[A], equal_var=False)

Ttest_indResult(statistic=3.417269886834147, pvalue=0.0007857942843984687)

为什么第一个使用"alternative"产生奇怪的高p值?我对p值理解错了吗?

您的样品订单颠倒了。使用:

ttest_ind(table[A], table2[B],  alternative="less", equal_var=False)

从文档中,在alternative参数下:

' less ':第一个样本下分布的均值小于第二个样本下分布的均值。

相关内容

  • 没有找到相关文章

最新更新