考虑以下简化情况:
create table trans
(
id integer not null
, tm timestamp without time zone not null
, val integer not null
, cus_id integer not null
);
insert into trans
(id, tm, val, cus_id)
values
(1, '2017-12-12 16:42:00', 2, 500) --
,(2, '2017-12-12 16:42:02', 4, 501) -- <--+---------+
,(3, '2017-12-12 16:42:05', 7, 502) -- |dt=54s |
,(4, '2017-12-12 16:42:56', 3, 501) -- <--+ |dt=59s
,(5, '2017-12-12 16:43:00', 2, 503) -- |
,(6, '2017-12-12 16:43:01', 5, 501) -- <------------+
,(7, '2017-12-12 16:43:15', 6, 502) --
,(8, '2017-12-12 16:44:50', 4, 501) --
;
我想通过cus_id将行分组,但同一cus_id连续行的时间戳之间的间隔小于1分钟。
在上面的示例中,这适用于ID的2、4和6的行。这些行具有相同的CUS_ID(501),间隔低于1分钟。间隔ID {2,4}为54s,对于ID {2,6}是59s。间隔ID {4,6}也低于1分钟,但是覆盖 较大的间隔ID {2,6}。
我需要一个给我输出的查询:
cus_id | tm | val
--------+---------------------+-----
501 | 2017-12-12 16:42:02 | 12
(1 row)
TM值将是第一行的TM,即最低的TM。阀将是分组的总和(val)。
在示例中分组3行,但也可能是2、4、5,...为简单起见,我只让Cus_ID 501的行附近有时间戳记,但是在我的 real 表中,会有更多。它包含20m 行。
这是可能的吗?
naive(subobtimal)使用CTE解决方案(更快的方法可以避免CTE,通过连接的子查询替换它,甚至使用窗口函数):
-- Step one: find the start of a cluster
-- (the start is everything after a 60 second silence)
WITH starters AS (
SELECT * FROM trans tr
WHERE NOT EXISTS (
SELECT * FROM trans nx
WHERE nx.cus_id = tr.cus_id
AND nx.tm < tr.tm
AND nx.tm >= tr.tm -'60sec'::interval
)
)
-- SELECT * FROM starters ; q
-- Step two: join everything within 60sec to the starter
-- and aggregate the clusters
SELECT st.cus_id
, st.id AS id
, MAX(tr.id) AS max_id
, MIN(tr.tm) AS first_tm
, MAX(tr.tm) AS last_tm
, SUM(tr.val) AS val
FROM trans tr
JOIN starters st ON st.cus_id = tr.cus_id
AND st.tm <= tr.tm AND st.tm > tr.tm -'60sec'::interval
GROUP BY 1,2
ORDER BY 1,2
;