由于维度不同,无法在scikit学习中使用FeatureUnion



我试图使用FeatureUnion从数据结构中提取不同的特征,但由于维度不同而失败:ValueError: blocks[0,:] has incompatible row dimensions


实施

我的FeatureUnion是以以下方式构建的:

    features = FeatureUnion([
        ('f1', Pipeline([
            ('get', GetItemTransformer('f1')),
            ('transform', vectorizer_f1)
        ])),
        ('f2', Pipeline([
            ('get', GetItemTransformer('f2')),
            ('transform', vectorizer_f1)
        ]))
    ])

GetItemTransformer用于从同一结构中获取不同部分的数据。该想法在scikit学习问题跟踪器中进行了描述。

结构本身被存储为{'f1': data_f1, 'f2': data_f2},其中data_f1是具有不同长度的不同列表。


问题

由于Y矢量与数据字段不同,我假设会发生错误,但如何缩放矢量以适应这两种情况?

以下是对我有效的方法:

class ArrayCaster(BaseEstimator, TransformerMixin):
  def fit(self, x, y=None):
    return self
  def transform(self, data):
    print data.shape
    print np.transpose(np.matrix(data)).shape
    return np.transpose(np.matrix(data))
FeatureUnion([('text', Pipeline([
            ('selector', ItemSelector(key='text')),
            ('vect', CountVectorizer(ngram_range=(1,1), binary=True, min_df=3)),
            ('tfidf', TfidfTransformer())
          ])
        ),
        ('other data', Pipeline([
            ('selector', ItemSelector(key='has_foriegn_char')),
            ('caster', ArrayCaster())
          ])
        )])

我不知道这是否适用于您的问题,但我们在略有不同的情况下遇到了相同的错误,并刚刚解决了它。

我们的f1条目每个都是15个数值的列表,我们需要对f2执行tf idf。这生成了关于不兼容行维度的相同错误。

在通过调试器运行它之后,我们发现在FeatureUnion中的hstack()调用中,我们的矩阵的形状有细微的不同:(2569,)(2659, 706)

如果我们将f1强制转换为2D numpy数组,则形状将更改为(2659, 15),并且hstack调用有效。

演员阵容是这样的:f1 = np.array(list(f1))

相关内容

  • 没有找到相关文章

最新更新