如果我为FeatureUnion将transformer_weights设置为0会发生什么



如果我将FeatureUnion的transformer_weights设置为0,会发生什么?我想知道我是否可以使用这种方法来选择退出GridSearchCV中的一组功能。通过这种方式,我可以利用GridSearchCV的交叉验证来测试一个功能是否可以改进预测。

此外,任何关于不同模型如何对这个transformer_weights变化做出反应的想法。我认为带平滑的MultinationalNB可以用来测试一组特征是否有用。

(或者关于如何测试特征的重要性有其他想法吗?我的另一个想法是做一个特征选择,看看各种特征选择方法是否去掉了"测试过的羽毛"。但另一方面,GridSearchCV的最佳估计器对保留数据集的预测性能是一个"终极"测试,所以我仍然会使用这个测试而不是特征选择。)。)

以下是FeatureUnion的管道示例。

pipeline = Pipeline([
    # Use FeatureUnion to combine the features
    ('union', FeatureUnion(
        transformer_list=[
            # Pipeline for pulling features from the post's subject line
            ('subject', Pipeline([
                ('selector', ItemSelector(key='subject')),
                ('tfidf', TfidfVectorizer(min_df=50)),
            ])),
            # Pipeline for standard bag-of-words model for body
            ('body_bow', Pipeline([
                ('selector', ItemSelector(key='body')),
                ('tfidf', TfidfVectorizer()),
                ('best', TruncatedSVD(n_components=50)),
            ])),
        ],
        # weight components in FeatureUnion
        transformer_weights={
            'body_bow': 1.0,
            'subject': 0.0,
        },
    )),
    ('svc', SVC(kernel='linear')),
])

Matt Terry的完整例子可以在这里找到:

它只是一些变压器输出的常数乘法器。即,您可以假设默认情况下,每个变压器的常数为1,并且您的FeatureUnion将输出:

numpy.hstack((body_bow_output_matrix*1.0, subject_output_matrix*0.0))

另请阅读本功能选择。

相关内容

  • 没有找到相关文章

最新更新