使用自定义管道进行交叉验证Scikit-Learn



我想使用GridSearchCV来确定分类器的参数,并且使用Pipelines似乎是一个不错的选择。

该应用程序将用于使用单词袋功能进行图像分类,但问题是逻辑管道有不同的逻辑管道,具体取决于是否使用了培训或测试示例。

对于每个训练集,Kmeans必须运行以产生用于测试的词汇,但是对于测试数据,没有运行Kmeans流程。

我看不到如何为管道的行为差异指定这种差异。

您可能需要从KMeans类派生并覆盖以下方法来使用词汇逻辑:

  • fit_transform仅在火车数据上调用

  • transform将在测试数据上调用

也许班级推导并不是最好的选择。您还可以编写自己的变压器类,该类别将调用呼叫到嵌入式KMeans模型,并提供fit/transform API,该 CC_6 api是第一阶段的Pipeline类所期望的。

相关内容

  • 没有找到相关文章

最新更新