我正在抓取大约20万个网站,寻找在小企业网站上发布的某些类型的媒体。我有一个腌制的线性svc,我已经训练它来预测在网页上找到的链接包含我正在寻找的类型的媒体的概率,它表现得相当好(总体精度约为95%)。但是,我希望刮刀在刮刀时定期使用新数据更新分类器。
所以我的问题是,如果我加载了一个腌制的sklearn LinearSVC,有没有一种方法可以在不重新训练整个模型的情况下添加新的训练数据?或者我必须加载所有以前的训练数据,添加新数据,然后训练一个全新的模型?
如果将数据添加到SVM中,则无法获得与将数据添加到原始训练集中相同的结果。你可以从之前的解决方案开始使用扩展的训练集进行重新训练(应该更快),或者只在新数据上进行训练,并完全偏离之前的解决方案。
只有少数模型可以做到你想要在这里实现的-例如岭回归或线性判别分析(以及它们的核-核岭回归或核费舍尔判别,或"极端"对立物- ELM或EEM),它们具有能够"在飞行中"添加新的训练数据的属性。