MySQL多到大的关系在大桌上缓慢



我有2个与关系表连接的表。

有关表的更多详细信息:

  • 商店(当前140.000行)

id (index) store_name city_id (index) ...

  • 类别(当前400行)

id (index) cat_name

  • store_cat_relation

store_id cat_id

每个商店都属于一个或多个类别。

在store_cat_relation表中,我在(store_id,cat_id)和(cat_id,store_id)上有索引。

我需要在巴黎(city_id = 1)中找到超市(CAT_ID = 1)的总数。我有一个工作查询,但是当数据库在巴黎包含大量商店或数据库中有很多超市时,需要花费太长时间。这是我的查询:

SELECT COUNT(*) FROM stores s, store_cat_relation r WHERE s.city_id = '1' AND r.cat_id = '1' AND s.id = r.store_id

此查询大约需要0,05。数据库包含约8000个超市(具有类别1的商店)和巴黎的大约8000家商店(Store_id = 1)。目前在巴黎合并了550个超市。

我想将查询时间降低到0,01以下,因为数据库只会越来越大。

解释的结果是:

id: 1
select_type: SIMPLE
table: store_cat_relation
type: ref
possible_keys: cat_id_store_id, store_id_cat_id
key: cat_id_store_id
key_len: 4
ref: const
rows: 8043
Extra: Using index
***************************************
id: 1
select_type: SIMPLE
table: stores
type: eq_ref
possible_keys: PRIMARY, city_id
key: PRIMARY
key_len: 4
ref: store_cat_relation.store_id
rows: 1
Extra: Using index condition; Using where

有人知道为什么此查询需要这么长时间?

编辑:我还创建了一个SQL小提琴,每个表有300行。行量较低,它很快,但是我需要使用 100.000行快速。

http://sqlfiddle.com/#!9/675a3/1

我已经进行了一些测试,最好的性能是使用 QUERY CAD CACHE 。您可以启用它们并按需使用。因此,您可以说哪些查询已插入缓存。如果要使用它,则必须在/etc/my.cnf中进行更改,以使其持久。如果更改桌子,也可以运行一些查询来热身缓存

在这里样本

表大小

MariaDB [yourSchema]> select count(*) from stores;
+----------+
| count(*) |
+----------+
| 10000000 |
+----------+
1 row in set (1 min 23.50 sec)
MariaDB [yourSchema]> select count(*) from store_cat_relation;
+----------+
| count(*) |
+----------+
| 10000000 |
+----------+
1 row in set (2.45 sec)
MariaDB [yourSchema]>

验证缓存在

MariaDB [yourSchema]> SHOW VARIABLES LIKE 'have_query_cache';
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| have_query_cache | YES   |
+------------------+-------+
1 row in set (0.01 sec)

设置缓存大小和按需

MariaDB [yourSchema]> SET GLOBAL query_cache_size = 1000000;
Query OK, 0 rows affected, 1 warning (0.00 sec)
MariaDB [yourSchema]> SET GLOBAL query_cache_type=DEMAND;
Query OK, 0 rows affected (0.00 sec)

启用分析

MariaDB [yourSchema]> set profiling=on;

首先执行您的查询 - 服用0.68 sec

MariaDB [yourSchema]> SELECT SQL_CACHE COUNT(*) FROM stores s, store_cat_relation r WHERE s.city_id = '1' AND r.cat_id = '1' AND s.id = r.store_id;
+----------+
| COUNT(*) |
+----------+
|      192 |
+----------+
1 row in set (0.68 sec)

现在从缓存获取

MariaDB [yourSchema]> SELECT SQL_CACHE COUNT(*) FROM stores s, store_cat_relation r WHERE s.city_id = '1' AND r.cat_id = '1' AND s.id = r.store_id;
+----------+
| COUNT(*) |
+----------+
|      192 |
+----------+
1 row in set (0.00 sec)

请参阅美国持续时间的配置文件

MariaDB [yourSchema]> show profile;
+--------------------------------+----------+
| Status                         | Duration |
+--------------------------------+----------+
| starting                       | 0.000039 |
| Waiting for query cache lock   | 0.000008 |
| init                           | 0.000005 |
| checking query cache for query | 0.000056 |
| checking privileges on cached  | 0.000026 |
| checking permissions           | 0.000014 |
| checking permissions           | 0.000025 |
| sending cached result to clien | 0.000027 |
| updating status                | 0.000048 |
| cleaning up                    | 0.000025 |
+--------------------------------+----------+
10 rows in set (0.05 sec)
MariaDB [yourSchema]>

您正在查看的是索引方案:

使用优化器A DBMS试图找到数据的最佳路径。根据数据本身,这可能会导致不同的访问路径,具体取决于所提供的条件(/组合/组,有时是按订单)。其中的数据分布可能是快速查询或非常缓慢的查询的关键。

因此,您目前有2个表,storestore_cat_relation。在商店中,您有2个索引:

  • ID(主要)
  • city_id

您有一个在city_id上的位置,并且ID上有一个连接。然后,DBMS引擎中的内部执行如下:

1)阅读索引city_id2)然后读取表(确定,主键索引)以查找ID3)加入ID

通过多列索引可以更优化这一点:

CREATE INDEX idx_nn_1 ON store(city_id,id);

这应该导致:

1)读取索引IDX_NN_12)使用此索引IDX_NN_1

加入

您在当前示例中确实具有相当落的数据,其中所有city_id=1在您的示例中。在真实数据中,数据的分布可以给您带来问题,因为where city_id=然后类似于说"只需从表存储中选择所有内容"。在此类情况下,该列上的直方图信息可能会导致不同的计划,但是,如果您的数据分布不那么侧面,则应该很好地工作。

在您的第二个表store_cat_relation上您可以尝试这样的索引:

CREATE INDEX idx_nn_2 ON store_cat_relation(store_id,cat_id);

查看DBM是否决定导致更好的数据访问路径。

在您看到的每一次加入时,都会研究加入,看看多列索引是否可以减少读数。

请勿索引所有列:索引中的列太多会导致插入和更新较慢。

还可能需要一些方案以不同的顺序创建索引,从而导致表上有许多索引(一个具有列(1,2,3),下一列(1,3,2)等)。这也不是一个真正的快乐场景,其中单列或列的限制,仅读取第2,3列的表格。

索引需要测试您最常见的方案,这可能很有趣,因为您会看到一个缓慢的查询如何在100秒内突然在100秒内突然运行,甚至更快地运行。

最新更新