Pandas:基于多个列的条件创建新列



我有以下数据集:


ID            AAA                  BBB                  CCC                   DDD
1234    {'2015-01-01': 1}    {'2016-01-01': 1,   {'2015-01-02': 1}     {'2016-01-02': 1} 
'2016-02-15': 2}
1235    {'2017-11-05': 1,    {'2018-01-05': 1}         NaN             {'2017-01-06': 1} 
'2018-06-05': 1}  

在单元格中,' key '是某人住院的日期,' value '是天数。

我需要为住院('Yes'或'No')创建一个新列。

条件为"yes":

  1. [AAA或BBB]栏和[CCC或DDD]栏均应填写日期。
  2. [CCC或DDD]栏中的日期应为[AAA或BBB]栏中日期的第二天。

例如,如果[AAA或BBB]的日期为2020年1月1日。对于"是",[CCC或DDD]中的日期应为2020年1月2日。

所需输出:

ID            AAA              BBB                  CCC                     DDD               Hospitalized
1234    {'2015-01-01': 1}    {'2016-01-01': 1,   {'2015-01-02': 1}     {'2016-01-02': 1}            Yes
'2016-02-15': 2}
1235    {'2017-11-05': 1,    {'2018-01-05': 1}         NaN                  NaN                      No
'2018-06-05': 1}  
1236    {'2017-11-05': 1,    {'2018-01-05': 1}         NaN             {'2018-01-06': 1}            Yes 
'2018-06-05': 1}  

我已经尝试了下面的代码,但这捕获如果日期存在,但不捕获时间戳。

df['hospitalized'] = (df
.apply(lambda r: 'yes' if (1 if pd.notna(r.loc[['AAA', 'BBB']]).any() else 0) + 
(1 if pd.notna(r.loc[['CCC', 'DDD']]).any() else 0) > 1 
else 'no', axis=1))

如有任何建议,不胜感激。谢谢!

df:

df = pd.DataFrame([[1234, {'2015-01-01': 1}, {'2016-01-01': 1, '2016-02-15': 2}, {'2015-01-02': 1}, {'2016-01-02': 1}], [1235, {'2017-11-05': 1,'2018-06-05': 1}, {'2018-01-05': 1}, np.nan, np.nan]], columns= ['ID', 'AAA', 'BBB', 'CCC', 'DDD'])

试题:

import itertools
from dateutil import parser
import datetime
def func(x):
A_B_dates = list(map(parser.parse,list(itertools.chain(*[x['AAA'].keys()] + [x['BBB'].keys()]))))
C_D_dates = list(map(parser.parse,list(itertools.chain(*[x['CCC'].keys()] + [x['DDD'].keys()]))))
for date1 in A_B_dates:
if date1+datetime.timedelta(days=1) in C_D_dates:
return 'yes'
return 'no'
df = df.where(df.notna(), lambda x: [{}])    
df['Hospitalised'] = df.apply(func, axis=1)

df:

ID       AAA                                BBB                                CCC                  DDD                 Hospitalised
0   1234    {'2015-01-01': 1}                   {'2016-01-01': 1, '2016-02-15': 2}  {'2015-01-02': 1}   {'2016-01-02': 1}   yes
1   1235    {'2017-11-05': 1, '2018-06-05': 1}  {'2018-01-05': 1}                   {}                  {'2017-01-06': 1}   no

相关内容

  • 没有找到相关文章

最新更新