如何获得pandas数据帧的相同大小的常规条目列表



我有一个列为[date, name, size]的数据帧

我想要一个列为的数据帧

[name, type, size, dates]

设置amount的容忍级别

threshold = 0.02

date上提取有用柱的一些预处理

df['date'] = pd.to_datetime(df['date'])
df['amount'] = df['amount'].astype(float)
df['str_date'] = df['date'].dt.date.astype(str)
df['dayofmonth'] = df['date'].dt.day
df['month'] = df['date'].dt.year*12 + df['date'].dt.month
df['dayofweek'] = df['date'].dt.dayofweek
df['weeknum'] = (df['date'] - pd.to_datetime('2022-02-06')).dt.days // 7

定义辅助函数。

将numpy导入为np按从itertools导入组

def splitter(seq, threshold):
i, amount_base = 0, seq[0][1]

for j, r in enumerate(seq):
if abs(r[1]/amount_base-1) > threshold:
if j - i >= 3:
yield i
i, amount_base = j, r[1]
def cont_seqs(df, column, threshold):
'''column: 'weeknum' for weekly, 'month' for monthly'''
# weekly or hourly continuity
df['continuity'] = df[column].values - np.arange(len(df))
seqs = [
list(map(lambda r: (r.str_date, r.amount) , rs)) 
for _, rs in groupby(df.itertuples(), lambda r: r.continuity)
]

# amount threshold and minimum length
return [
dict(zip(('dates', 'amount'), list(zip(*segment))))
for seq in seqs 
for segment in np.split(seq, list(splitter(seq, threshold))) 
if len(segment) >= 3
]

首先,我们将发现所有的weekly模式

因为每周模式共享相同的dayofweek(例如,它们都是星期三(,所以我们的想法是用namedayofweekgroupby数据帧。

下一步是在一组中找出所有有效的日期序列;"每周连续";。为此,我们使用continuous_sequences(...)。有效序列是具有>3个日期,并且所有金额值都在相对于第一金额的容许水平内。

由于一个组可以包含多个有效序列,所以我们执行explode,使一个序列占据一行。但是,一个组可能根本没有有效的序列,所以我们将使用dropna来删除它们。

方法的重置负责格式化。

weekly = df.groupby(['name', 'dayofweek'])
.apply(lambda df: list(cont_seqs(df, 'weeknum', .02)))
.explode()
.dropna()
.apply(pd.Series)
.reset_index()
.drop(columns='dayofweek')
.assign(recurring_type='weekly')
.reindex(['name', 'recurring_type', 'amount', 'dates'], axis=1)

然后,我们将发现所有的monthly模式

这一次,每月模式中的日期应该共享相同的dayofmonth,这就是我们将其放入groupby的原因。我们遵循与weekly模式类似的逻辑。

monthly = df.groupby(['name', 'dayofmonth'])
.apply(lambda df: list(cont_seqs(df, 'month', .02)))
.explode()
.dropna()
.apply(pd.Series)
.reset_index()
.drop(columns='dayofmonth')
.assign(recurring_type='monthly')
.reindex(['name', 'recurring_type', 'amount', 'dates'], axis=1)

最后,我们将这两种模式组合成一个数据帧

pd.concat([weekly, monthly]).reset_index(drop=True)

结果

name    recurring_type  amount  dates
0   John    weekly  (10.0, 10.0, 10.0)  (2021-07-01, 2021-07-08, 2021-07-15)
1   John    monthly (10.0, 10.04, 10.0) (2021-10-01, 2021-11-01, 2021-12-01)

最新更新