Scikit Learn中逻辑回归的阈值控制

我在高度不平衡的数据集上使用scikit-learn中的LogisticRegression()方法。我甚至将class_weight功能转换为auto。

我知道在逻辑回归中，应该可以知道一对特定类的阈值是多少。

有可能知道LogisticRegression()方法设计的"一对所有"类中的每个类的阈值是多少吗？

我在文档页面上没有找到任何内容。

默认情况下，它是否将0.5值作为所有类的阈值，而不考虑参数值？

我使用了一个小技巧，不用model.predict(test_data)，用model.predict_proba(test_data)。然后使用阈值的值范围来分析对预测的影响；

pred_proba_df = pd.DataFrame(model.predict_proba(x_test))
threshold_list = [0.05,0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45,0.5,0.55,0.6,0.65,.7,.75,.8,.85,.9,.95,.99]
for i in threshold_list:
    print ('n******** For i = {} ******'.format(i))
    Y_test_pred = pred_proba_df.applymap(lambda x: 1 if x>i else 0)
    test_accuracy = metrics.accuracy_score(Y_test.as_matrix().reshape(Y_test.as_matrix().size,1),
                                           Y_test_pred.iloc[:,1].as_matrix().reshape(Y_test_pred.iloc[:,1].as_matrix().size,1))
    print('Our testing accuracy is {}'.format(test_accuracy))
    print(confusion_matrix(Y_test.as_matrix().reshape(Y_test.as_matrix().size,1),
                           Y_test_pred.iloc[:,1].as_matrix().reshape(Y_test_pred.iloc[:,1].as_matrix().size,1)))

最好！

逻辑回归选择概率最大的类。在两个类别的情况下，阈值为0.5：如果P（Y=0）>0.5，则明显地P（Y=0）>P（Y=1）。同样适用于多类设置：再次，它选择概率最大的类（例如，见吴的讲座，底线）。

引入特殊阈值只影响假阳性/假阴性的比例（从而影响精度/召回权衡），但它不是LR模型的参数。另请参阅类似的问题。

是的，Sci-Kit学习使用的是p>0.5表示二进制分类。我将在已经发布的一些答案的基础上，用两个选项来检查：

一个简单的选项是使用下面代码的model.product_proba（test_x）段的输出以及类预测（下面代码的model.product（test_x）段的输出来提取每个分类的概率。然后，将类预测及其概率附加到测试数据帧中作为检查。

作为另一种选择，可以使用以下代码以图形方式查看不同阈值下的精度与召回率。

### Predict test_y values and probabilities based on fitted logistic 
regression model
pred_y=log.predict(test_x) 
probs_y=log.predict_proba(test_x) 
  # probs_y is a 2-D array of probability of being labeled as 0 (first 
  column of 
  array) vs 1 (2nd column in array)
from sklearn.metrics import precision_recall_curve
precision, recall, thresholds = precision_recall_curve(test_y, probs_y[:, 
1]) 
   #retrieve probability of being 1(in second column of probs_y)
pr_auc = metrics.auc(recall, precision)
plt.title("Precision-Recall vs Threshold Chart")
plt.plot(thresholds, precision[: -1], "b--", label="Precision")
plt.plot(thresholds, recall[: -1], "r--", label="Recall")
plt.ylabel("Precision, Recall")
plt.xlabel("Threshold")
plt.legend(loc="lower left")
plt.ylim([0,1])

我们可以使用如下包装器：

model = LogisticRegression()
model.fit(X, y)
def custom_predict(X, threshold):
    probs = model.predict_proba(X) 
    return (probs[:, 1] > threshold).astype(int)
    
    
new_preds = custom_predict(X=X, threshold=0.4)

如果在Pandas 0.23.0+版本中使用@jazib-jamil和@Halee的解决方案，请将.as_matrix()替换为.values（文档）。

pred_proba_df = pd.DataFrame(model.predict_proba(x_test))
threshold_list = [0.05,0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45,0.5,0.55,0.6,0.65,.7,.75,.8,.85,.9,.95,.99]
for i in threshold_list:
    print ('n******** For i = {} ******'.format(i))
    Y_test_pred = pred_proba_df.applymap(lambda x: 1 if x>i else 0)
    test_accuracy = metrics.accuracy_score(Y_test.values.reshape(Y_test.values.size,1),
                                           Y_test_pred.iloc[:,1].values.reshape(Y_test_pred.iloc[:,1].values.size,1))
    print('Our testing accuracy is {}'.format(test_accuracy))
    print(confusion_matrix(Y_test.values.reshape(Y_test.values.size,1),
                           Y_test_pred.iloc[:,1].values.reshape(Y_test_pred.iloc[:,1].values.size,1)))

相关内容

最新更新

热门标签：