我想使用GridSearchCV来确定分类器的参数,并且使用Pipelines似乎是一个不错的选择。
该应用程序将用于使用单词袋功能进行图像分类,但问题是逻辑管道有不同的逻辑管道,具体取决于是否使用了培训或测试示例。
对于每个训练集,Kmeans必须运行以产生用于测试的词汇,但是对于测试数据,没有运行Kmeans流程。
我看不到如何为管道的行为差异指定这种差异。
您可能需要从KMeans
类派生并覆盖以下方法来使用词汇逻辑:
-
fit_transform
仅在火车数据上调用 -
transform
将在测试数据上调用
也许班级推导并不是最好的选择。您还可以编写自己的变压器类,该类别将调用呼叫到嵌入式KMeans模型,并提供fit
/transform
API,该 CC_6 api是第一阶段的Pipeline
类所期望的。