在train_test_split之后运行比例测试



好吧,我得到了一个数据集,在将其拆分为训练和测试数据后,通过train_test_split,我试图针对y_trainy_test:运行proportion_ztest

(test_stat, p_value) = proportions_z_test(y_train, y_test, alternative='two-sided')

但Python不断抛出CCD_ 5。

我的Y目标变量是二进制(0和1类(

有没有办法像上面的代码一样,直接将y_train和y_test添加到proportion_ztest调用中,或者,在此之前,我必须计算每个数据集中的所有1类和观测总数(y_train and y_test(,并使用np.array编写代码,如:

success = [123, 359]
TotalObs = [2500, 2500]
(test_stat, p_value) = proportions_z_test(success, TotalObs, alternative='two-sided')

除了将stratify参数添加到train_test_split调用之外,我正在尝试找到其他解决方案。

任何帮助都是值得的。

TY!

如果随机变量已经编码为二进制0,1,则总和计算成功次数。

因此,以下内容应适用于相等比例的两个样本测试

(test_stat, p_value) = proportions_z_test([y_train.sum(), y_test.sum()], 
[len(y_train), len(y_test)], 
alternative='two-sided')

最新更新