用Python计算逻辑回归,不同样本量



目前,我正在尝试在Python中实现一个基本的逻辑回归算法来区分a和b。

对于我的训练和测试数据,我有~50,000个A样本和1000个B样本,如果我使用每个样本的一半数据来训练算法,另一半作为测试数据(25000个训练A, 500个训练B等等用于测试精度),这是一个问题吗?

如果是这样,我该如何克服这个问题?我应该考虑重新采样,做一些其他的"花哨的东西"吗?

问题的严重程度取决于数据的性质。更大的问题将是你有一个巨大的分类不平衡(每50个a对应一个B)。如果你最终获得了很好的分类准确性,那就好了——没什么可做的。接下来要做什么取决于您的数据和问题的性质以及解决方案中可以接受的内容。对于这个问题,真的没有一个固定的"这样做"的答案。

最新更新