用于"Null/Not Null"的scikit-learn编码器?



我在数据集中有许多变量,它们都是a)稀疏的和b)唯一的(主要是…)。像这样:

Foo NaN NaN Bar NaN NaN NaN Baz

虽然这些变量的实际值在某些上下文中很有趣,但我经常发现自己只是将Null/Not Null替换为True/False。

我想知道这是否作为scikit-learn的编码器存在-如果没有,有人知道如何实现它吗?

以下内容适合我:

class NullNotNullTransformer(BaseEstimator, TransformerMixin):
    """
    Transforms data according to null/not-null scheme.
    """
    def fit(self, X):
        return self
    def transform(self, X):
        return pd.isnull(X)

相关内容

  • 没有找到相关文章

最新更新