在PySpark日期列中获取每年的最新日期

我有一个这样的表：

+----------+-------------+
|      date|BALANCE_DRAWN|
+----------+-------------+
|2017-01-10| 2.21496454E7|
|2018-01-01| 4.21496454E7|
|2018-01-04| 1.21496454E7|
|2018-01-07| 4.21496454E7|
|2018-01-10| 5.21496454E7|
|2019-01-01| 1.21496454E7|
|2019-01-04| 2.21496454E7|
|2019-01-07| 3.21496454E7|
|2019-01-10| 1.21496454E7|
|2020-01-01| 5.21496454E7|
|2020-01-04| 4.21496454E7|
|2020-01-07| 6.21496454E7|
|2020-01-10| 3.21496454E7|
|2021-01-01| 2.21496454E7|
|2021-01-04| 1.21496454E7|
|2021-01-07| 2.21496454E7|
|2021-01-10| 3.21496454E7|
|2022-01-01| 4.21496454E7|
|2022-01-04| 5.21496454E7|
|2022-01-07|2.209869511E7|
|2022-01-10|3.209869511E7|
+----------+-------------+

有没有办法过滤这个数据帧，所以我得到了这样的东西：

+----------+-------------+
|      date|BALANCE_DRAWN|
+----------+-------------+
|2017-01-10| 2.21496454E7|
|2018-01-10| 5.21496454E7|
|2019-01-10| 1.21496454E7|
|2020-01-10| 3.21496454E7|
|2021-01-10| 3.21496454E7|
|2022-01-10|3.209869511E7|
+----------+-------------+

即，获取每年的最新日期和相应的BALANCE_DRAWN行。

我设法得到了它，但它只适用于以下代码的1个案例：

df = df.groupby([f.year("date")]).agg(f.last("BALANCE_DRAWN"))

但产量仅为一年：

+----------+-------------+
|      date|BALANCE_DRAWN|
+----------+-------------+
|2017      | 2.21496454E7|
|2018      | 5.21496454E7|
|2019      | 1.21496454E7|
|2020      | 3.21496454E7|
|2021      | 3.21496454E7|
|2022      |3.209869511E7|
+----------+-------------+

结果很好，但我需要让它更灵活。(不仅仅是一年(

更新：也许max((可以以某种方式使用。(尝试一下，会更新(

更新2:接受的答案做到了！

df = df.withColumn('year', year(df['date']))
.groupBy(df['year'])
.agg(max(df['date']), first(df['BALANCE_DRAWN']))

相关内容

最新更新

热门标签：