直接从MySQL数据库培训分类器



目前,我在ML上担任数据科学家的职位。我的问题如下,是否可以直接从MySQL数据库训练算法,并且与您从CSV文件训练它的方式相似。此外,我想知道您是否正在处理非常不平衡的数据集。当您使用0.2%的数据进行测试时,它是否将培训中的负和正病例和测试的阳性案例比例分为同等比例。有人可以向我提出一个好教程或文档吗?

确保可以直接从数据库训练模型。这就是生产系统中发生的事情。您的软件应该是设计的,无论您的数据源是SQL,CSV还是其他任何内容都没有关系。正如您不提到编程语言时,很难说,如何做,但是在Python中,您可以在这里查看:我如何连接到Python中的MySQL数据库?

如果您的数据集是不平衡的,就像实际上一样,您可以使用班级权重使分类器意识到这一点。例如。在keras/sci-kit中,您可以通过class_weights参数。请注意,如果您的数据集太小,则可以遇到具有默认度量等诸如准确性之类的问题。最好看一下混淆矩阵或其他指标,例如Matthews相关系数

另一个很好的参考:Scikit-Learn中的class_weight参数如何工作?

最新更新