查找值不存在或为空时熊猫查找的默认值



我有一个看起来像这样的数据帧:

       parent region
estid               
1         NaN      A
2         NaN      B
3         1.0      A
4         1.0      B
5         2.0      C
6         2.0      C
7         8.0      A

我想要的是创建一个包含parent region的额外列,如果在数据中找不到父项,则默认为 None,例如:

       parent region parent_region
estid                             
1         NaN      A          None
2         NaN      B          None
3         1.0      A             A
4         1.0      B             A
5         2.0      C             B
6         2.0      C             B
7         8.0      A          None

以下内容返回正确的结果:

df["parent_region"] = df.apply(lambda x : df.loc[x["parent"]]["region"] if not math.isnan(x["parent"]) and x["parent"] in df.index else None, axis = 1)

但我非常害怕效率低下,因为我的数据帧有 1.68 亿行。有没有更好的方法?我查看了lookupget,但我不太清楚如何使用数据帧中可以NaN或不存在的 ID。

例如,我认为这可以工作:df.lookup(df["region"], df["parent"]),但它不喜欢太多空键。 df.get("region") 不返回父级的区域,而是返回列本身,因此它不会执行我想要的操作。

您可以使用Series.map类似于字典的方法。列和区域列中的值用作构成它的键和值。如果它们之间共享一个公共索引,则会发生映射。

此外,na_action=ignore可用于加快此映射过程,因为这些列中存在的所有NaNs都将被完全忽略并简单地传播。

最后,必须使用Series.replace方法将缺失值替换为None

df["parent_region"] = df.parent.map(df.region, na_action='ignore').replace({np.NaN:None})
Out[121]:
estid
1    None
2    None
3       A
4       A
5       B
6       B
7    None
Name: parent_region, dtype: object

我们也可以为此使用合并,连接自身以将父项与 estid 匹配:

z = pd.merge(x, x[['estid','region']],
             left_on = 'parent',
             right_on = 'estid',
             how =  'left',
             suffixes=('', '_parent')) #left join
del z['estid_parent'] #remove uneeded row
z['region_parent'] = z['region_parent'].replace({np.NaN:None}) #remove nans, same as other answer
z
    estid   parent  region  region_parent
0   1   NaN A   None
1   2   NaN B   None
2   3   1.0 A   A
3   4   1.0 B   A
4   5   2.0 C   B
5   6   2.0 C   B
6   7   8.0 A   None

最新更新