处理np.select中缺失的值



我正在尝试为我的熊猫DataFrame设置一个新的专栏'Score'
我发现最好的方法可能是使用np.select()功能。

然而,我有一些缺失的值在我的数据框,我想返回False,但却找不到方法。

我的最后一次尝试如下所示:

score_conditions = [
((df['column1']).replace({'<NA>': np.nan}).fillna(False) > 15),
(df['column2'] > 5),
(df['column3'] < 1)
]   
score_choices = [3, 2, 1]
df['Score'] = np.select(score_conditions, score_choices, default=0)

我有点迷失在熊猫的NA和numpy的NaN之间的差异,可能是不同的?当前<NA>通常是Int64列的一部分。

我在大多数列中都有缺失值(可能是5个超过10个条件列),但仍然希望在1个或多个值可用时计算分数。

下面是一个示例数据框架:

df = DataFrame({'column1' : [5,16,<NA>,24], 'column2' : [5,6,3,1], 'column3' : [<NA>,0,0,<NA>]})

预期结果是:

For index 0: 0 #zero condition are met, when values are available
For index 1: 3 #all conditions are met
For index 2: 1 #only condition in 3rd columns is met, when values are available
For index 3: 1 #only condition in 1st columns is met, when values are available

谢谢你,

第一个想法是将pandas升级到最新版本。


另一个想法是通过将值转换为浮点数将NA转换为np.nan:

df['column1'] > 15

:

df['column1'].astype(float) > 15

我认为这可能是一个小语法的事情。基本上,应该用双引号括起来,因为它不是原生的python、pandas或numpy数据类型。此时,列变成类型('O'),表示它们是对象。我稍微修改了你的代码,得到了一个答案,虽然它不太理想的分数值,它的工作原理完全按照设计:

df = pd.DataFrame({'column1' : [5,16,"<NA>",24], 'column2' : [5,6,3,1], 'column3' : ["<NA>",0,0,"<NA>"]})

score_conditions = [
((df['column1']).replace({'<NA>': np.nan}).fillna(False) > 15),
(df['column2'] > 5),
(df['column3'].replace({'<NA>': np.nan}).fillna(False) < 1)
]   
score_choices = [3, 2, 1]
df['Score'] = np.select(score_conditions, score_choices, default=0)

数据类型很重要,无论如何fillna是你所需要的。

让我们用你的例子:

df = pd.DataFrame({'column1' : [5,16,pd.NA,24], 'column2' : [5,6,3,1], 'column3' : [pd.NA,0,0,pd.NA]})
>>> score_conditions = [
(df['column1'] > 15),
(df['column2'] > 5),
(df['column3'] < 1)
]
>>> for i in score_conditions: print(i)
0    False
1     True
2    False
3     True
Name: column1, dtype: bool
0    False
1     True
2    False
3    False
Name: column2, dtype: bool
0    False
1     True
2     True
3    False
Name: column3, dtype: bool

您可以直接获得预期的值,因为列具有object数据类型:

>>> print(df.dtypes)
column1    object
column2     int64
column3    object
dtype: object

但是在评论中,您解释说您的列具有Int64数据类型(注意大写I),所以让我们强制使用该数据类型:

>>> df = pd.DataFrame({'column1' : [5,16,pd.NA,24], 'column2' : [5,6,3,1], 'column3' : [pd.NA,0,0,pd.NA]}, dtype=pd.Int64Dtype())
>>> score_conditions = [
(df['column1'] > 15),
(df['column2'] > 5),
(df['column3'] < 1)
]
>>> for i in score_conditions: print(i)
0    False
1     True
2     <NA>
3     True
Name: column1, dtype: boolean
0    False
1     True
2    False
3    False
Name: column2, dtype: boolean
0    <NA>
1    True
2    True
3    <NA>
Name: column3, dtype: boolean

Patatras,我们找到了您想要避免的<NA>值!至少它再现了你的问题…

解决方案是fillna:

>>> score_conditions = [
(df['column1'] > 15).fillna(False),
(df['column2'] > 5).fillna(False),
(df['column3'] < 1).fillna(False)
]
>>> for i in score_conditions: print(i)
0    False
1     True
2    False
3     True
Name: column1, dtype: boolean
0    False
1     True
2    False
3    False
Name: column2, dtype: boolean
0    False
1     True
2     True
3    False
Name: column3, dtype: boolean

不需要浮点数转换…