Pandas日期条件计算



我正试图在Pandas中创建一个基于条件语句的列,该语句计算两个事件之间的时间。我能够计算出日期,但当插入我的条件语句时:

def defect_age(df):
    if df['Status'] == 'R':
        return (pd.to_datetime(df['resolved_on'], errors='coerce') 
            - pd.to_datetime(df['submitted_on'])) / np.timedelta64(1, 'D')
    else:
        return 'null'

然后后来被列调用:

group_df['Age'] = group_df.apply(defect_age(group_df), axis=0)

我得到以下错误:

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

我试着把我的问题建立在这里。。。但我并没有取得多大成功。感谢您的帮助!

尝试使用defect_age 的此定义

def defect_age(df):
    resolved = pd.to_datetime(df.resolved_on, errors='coerce')
    submitted = pd.to_datetime(df.submitted_on)
    r = (resolved - submitted) / np.timedelta64(1, 'D')
    return np.where(df.Status == 'R', r, np.nan)

错误来自if df['Status'] == 'R'

这将是一系列布尔值,而不是if所需要的单个布尔值。你仍然想同时在整个系列中运行这个。我希望我给了你一些有用的东西。

这样做:

group_df['Age'] = group_df.apply(lambda row:defect_age(row), axis=1)

这是因为您希望将函数应用于每一行,而不是同时应用于整个数据帧。

如果应用于数据帧,df['Status'] == 'R'将给出布尔值列表,并且不能将布尔值列表放入if表达式

相关内容

  • 没有找到相关文章

最新更新