我正在使用scikit来制作一个有监督的分类器,目前我正在对其进行调整,以使我在标记数据上具有良好的准确性。但是我如何估计它在测试数据上的表现(未标记)?
另外,我如何发现我是否开始过拟合分类器?
你不能在未标记的数据上给你的方法打分,因为你需要知道正确的答案。为了评估一个方法,你应该把你的训练集分成(新的)训练和测试(通过sklearn.cross_validation)。例如Train_testrongplit)。然后将模型与火车匹配并在测试中得分。如果你没有很多数据,并且保留其中一些数据可能会对算法的性能产生负面影响,请使用交叉验证。
由于过拟合是不能泛化的,所以低考试分数是一个很好的指标。
有关更多理论和其他方法,请查看本文。