我在327条记录的数据集中有两列:
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 JD 327 non-null datetime64[ns]
1 CD 312 non-null Int64
我想生成第三个(['theoretical_eoc']
(,它给我保留在[JD]
中的日期加上在[CD]
中指定的月份数。但是当我使用定义这个新列时
df['theoretical_eoc'] = turnover.apply(lambda x: x.JD + relativedelta(months=x.CD), axis=1)
我收到以下错误消息:
TypeError: int() argument must be a string, a bytes-like object or a number, not 'NAType'
所以,我定义了一个函数来放置NaT
,以防任何列中的值之一是NA:
def rd_na(a, b):
if pd.isnull(a) or pd.isnull(b):
pd.NaT
else:
a + relativedelta(months = b)
但当我应用它时:
df['theoretical_eoc'] = turnover.apply(lambda x: rd_na(x.JD, x.CD), axis=1)
结果是一列充满了None
值,而我期望datetime64[ns]
带有一些NaT
。我做错了什么?我怎样才能完成这项任务?
您在rd_na
函数中缺少返回
def rd_na(a, b):
if pd.isnull(a) or pd.isnull(b):
return pd.NaT
else:
return a + relativedelta(months = b)
考虑在处理pd.NaT
时使用Panda的DateOffset
from pandas.tseries.offsets import DateOffset
df['theoretical_eoc'] = turnover.apply(lambda x: x.JD +
DateOffset(months=x.CD), axis=1)