好吧,我得到了一个数据集,在将其拆分为训练和测试数据后,通过train_test_split
,我试图针对y_train
和y_test
:运行proportion_ztest
(test_stat, p_value) = proportions_z_test(y_train, y_test, alternative='two-sided')
但Python不断抛出CCD_ 5。
我的Y目标变量是二进制(0和1类(
有没有办法像上面的代码一样,直接将y_train和y_test添加到proportion_ztest
调用中,或者,在此之前,我必须计算每个数据集中的所有1类和观测总数(y_train and y_test(,并使用np.array编写代码,如:
success = [123, 359]
TotalObs = [2500, 2500]
(test_stat, p_value) = proportions_z_test(success, TotalObs, alternative='two-sided')
除了将stratify
参数添加到train_test_split
调用之外,我正在尝试找到其他解决方案。
任何帮助都是值得的。
TY!
如果随机变量已经编码为二进制0,1,则总和计算成功次数。
因此,以下内容应适用于相等比例的两个样本测试
(test_stat, p_value) = proportions_z_test([y_train.sum(), y_test.sum()],
[len(y_train), len(y_test)],
alternative='two-sided')