自联接和按修订后的行进行筛选的高性能方式

我正在尝试选择此表中的所有行，约束是选择修订后的id而不是原始的id。因此，如果一行有修订版本，则选择该修订版本而不是该行，如果有多个修订版本号，则首选最高修订版本号。

我认为示例表、输出和查询将更好地解释这一点：

桌子：

+----+-------+-------------+-----------------+-------------+
| id | value | original_id | revision_number | is_revision |
+----+-------+-------------+-----------------+-------------+
|  1 | abcd  | null        | null            |           0 |
|  2 | zxcv  | null        | null            |           0 |
|  3 | qwert | null        | null            |           0 |
|  4 | abd   | 1           | 1               |           1 |
|  5 | abcde | 1           | 2               |           1 |
|  6 | zxcvb | 2           | 1               |           1 |
|  7 | poiu  | null        | null            |           0 |
+----+-------+-------------+-----------------+-------------+

期望输出：

+----+-------+-------------+-----------------+
| id | value | original_id | revision_number |
+----+-------+-------------+-----------------+
|  3 | qwert | null        | null            |
|  5 | abcde | 1           | 2               |
|  6 | zxcvb | 2           | 1               |
|  7 | poiu  | null        | null            |
+----+-------+-------------+-----------------+

视图调用revisions_max：

SELECT 
responses.original_id AS original_id,
MAX(responses.revision_number) AS revision
FROM
responses
WHERE
original_id IS NOT NULL   
GROUP BY responses.original_id

我当前的查询：

SELECT
responses.*
FROM
responses
WHERE
id NOT IN (
SELECT
original_id
FROM
revisions_max
)
AND
is_revision = 0
UNION
SELECT
responses.*
FROM
responses
INNER JOIN revisions_max ON revisions_max.original_id = responses.original_id
AND revisions_max.revision_number = responses.revision_number

此查询有效，但需要0.06秒才能运行。表只有 2000 行。此表将很快开始扩展到数万或数十万行。union下的查询是花费大部分时间的。

如何提高此查询性能？

使用coalesce()怎么样？

SELECT COALESCE(y.id, x.id)                           AS id,
COALESCE(y.value, x.value)                     AS value,
COALESCE(y.original_id, x.original_id)         AS original_id,
COALESCE(y.revision_number, x.revision_number) AS revision_number
FROM   responses x
LEFT JOIN (SELECT r1.*
FROM   responses r1
INNER JOIN (SELECT responses.original_id          AS
original_id,
Max(responses.revision_number) AS
revision
FROM   responses
WHERE  original_id IS NOT NULL
GROUP  BY responses.original_id) rev
ON r1.original_id = rev.original_id
AND r1.revision_number = rev.revision) y
ON x.id = y.original_id
WHERE  y.id IS NOT NULL
OR x.original_id IS NULL;

我将对任何其他DBMS采取的方法是使用NOT EXISTS：

SELECT  r1.*
FROM    Responses AS r1
WHERE   NOT EXISTS
(   SELECT  1
FROM    Responses AS r2
WHERE   r2.original_id = COALESCE(r1.original_id, r1.id)
AND     r2.revision_number > COALESCE(r1.revision_number, 0)
);

删除同一 id 存在较高修订号的任何行(如果已填充，则为 original_id(。但是，在 MySQL 中，LEFT JOIN/IS NULL的性能将优于^{NOT EXISTS1}。因此，我将上述内容重写为：

SELECT  r1.*
FROM    Responses AS r1
LEFT JOIN Responses AS r2
ON r2.original_id = COALESCE(r1.original_id, r1.id)
AND r2.revision_number > COALESCE(r1.revision_number, 0)
WHERE   r2.id IS NULL;

DBFiddle 上的示例

我知道您说过不想使用LEFT JOIN并检查空值，但我看不到有更好的解决方案。

^{1. 至少历史上是这种情况，我不积极使用 MySQL，所以不要跟上优化器的最新发展}

相关内容

最新更新

热门标签：