我正在使用sklearn.pipeline.Pipeline
来链接特征提取器和分类器。有没有办法并行组合多个要素选择类(例如来自sklearn.feature_selection.text
的类)并连接它们的输出?
我现在的代码如下所示:
pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', SGDClassifier())])
它会导致以下结果:
vect -> tfidf -> clf
我希望能够指定如下所示的管道:
vect1 -> tfidf1
-> clf
vect2 -> tfidf2 /
最近
在scikit-learn的主分支中以FeatureUnion
的名义实现了:
http://scikit-learn.org/dev/modules/pipeline.html#feature-union