Python数据框架t检验查找p值



我正在创建一个逻辑回归模型来预测明天是否会下雨基于在kaggle上找到的数据集:https://www.kaggle.com/jsphyg/weather-dataset-rattle-package

我希望通过保留具有最低p值的特征来删除高度相关的特征。

要做到这一点,我必须对每个功能进行t测试,但我总是得到结果

Ttest_indResult(statistic=nan, pvalue=nan)

获取"MinTemp"的p值的代码是:

from scipy import stats
ex = stats.ttest_ind(df2['RainTomorrow'],df2['MinTemp']) 
print(ex)

如何提取每个特征的p值?

您需要从数据中删除空值(假设您已经将文本数据转换为数字):

from scipy import stats
#removing null values
df2 = df2[(df2['MinTemp'].notna()) & (df2['RainTomorrow'].notna())]
ex = stats.ttest_ind(df2['RainTomorrow'],df2['MinTemp']) 
print(ex)

最新更新