逻辑回归训练数据集的真/假比率



我正在研究一个基于Spark ML的逻辑回归分类器。我想知道我是否应该训练相同数量的数据来判断是真是假。

我是说当我想把人分为男性或女性时,用100个男性数据+100个女性数据训练一个模型可以吗。

网上的人可能有40%是男性,60%是女性,但这一比例是根据过去预测的,所以它可以改变(比如30%是女性,70%是男性)

在这种情况下。我应该训练哪些女性/男性百分比的数据?这与过度拟合有关吗?

当我训练一个40%女性+60%男性的模型时,对70%女性+30%男性组成的领域数据进行分类是没有用的?

火花分类样本数据有43个错误,57个正确。https://github.com/apache/spark/blob/master/data/mllib/sample_binary_classification_data.txt

什么是逻辑回归中trainig数据的真/假比率?

我的英语真的不好,但希望你能理解我

使用什么比例并不重要,只要它是合理的。

60:40,30:70,50:50,没关系。只要确保它不会太不平衡,比如99:1。

如果整个数据集是70:30女性:男性,并且你只想使用这个数据集的一个子集,那么追求60:40女性:男性的比例不会杀死你。

考虑以下示例:你的测试数据中99%是男性,1%是女性。

从技术上讲,你可以正确地对所有男性进行分类,all女性错误地,你的算法将显示1%的错误。看起来不错吧?不,因为你的数据太不平衡了。

这种低误差不是过拟合(高方差)的结果,而是不平衡数据集的结果。

这是一个极端的例子,但你明白了。

相关内容

  • 没有找到相关文章

最新更新