优化CTE以返回父子层次结构的某一级别的子体



我在SQL Server 2008 R2中定义了一个简单的临时表,表示父子关系。可以有多个层次(例如,最多10个)。我使用CTE在表中查找子级,这些子级在派生层次结构中至少为3级,换句话说,至少有一个父级和一个祖父母。

这里有一个脚本来演示设置和我正在使用的CTE:

set nocount on
create table #linkage(entity_key bigint, parent_key bigint)
--alter table #linkage add foreign key (parent_key) references #linkage(entity_key)
insert into #linkage values(1, 1), (2, 2), (3, 3), (4, 1), (5, 4), (6, 5)
print 'all data:' select * from #linkage
print 'level 3+ descendents:' 
;with r(entity_key, parent_key, level) as
(
    select entity_key, parent_key, 1
        from #linkage
        where entity_key = parent_key
    union all
    select p.entity_key, r.parent_key, r.level + 1
        from #linkage p
        inner join r on p.parent_key = r.entity_key 
        where p.entity_key <> r.entity_key
)
select entity_key, parent_key as ultimate_parent_key
from r
where r.level > 2

正确输出以下内容:

all data:
entity_key           parent_key
-------------------- --------------------
1                    1
2                    2
3                    3
4                    1
5                    4
6                    5
level 3+ descendents:
entity_key           ultimate_parent_key  level
-------------------- -------------------- -----------
5                    1                    3
6                    1                    4

问题是,我需要它来处理大型数据集。当我对1200万行进行测试时,需要3分钟以上才能完成,我希望能大大减少这一时间。

我尝试过创建聚集索引和非聚集索引的各种组合(entity_key)、(entity.key,parent_key)等,但似乎没有任何帮助(事实上,有些似乎会减慢速度)。

以下是针对没有索引的1200万行的执行计划:

  |--Filter(WHERE:([Recr1014]>(2)))
       |--Index Spool(WITH STACK)
            |--Concatenation
                 |--Compute Scalar(DEFINE:([Expr1015]=(0)))
                 |    |--Compute Scalar(DEFINE:([Expr1004]=(1)))
                 |         |--Table Scan(OBJECT:([tempdb].[dbo].[#linkage]), WHERE:([tempdb].[dbo].[#linkage].[entity_key]=[tempdb].[dbo].[#linkage].[parent_key]))
                 |--Assert(WHERE:(CASE WHEN [Expr1017]>(100) THEN (0) ELSE NULL END))
                      |--Nested Loops(Inner Join, OUTER REFERENCES:([Expr1017], [Recr1008], [Recr1009], [Recr1010]))
                           |--Compute Scalar(DEFINE:([Expr1017]=[Expr1016]+(1)))
                           |    |--Table Spool(WITH STACK)
                           |--Compute Scalar(DEFINE:([Expr1011]=[Recr1010]+(1)))
                                |--Filter(WHERE:([tempdb].[dbo].[#linkage].[entity_key] as [p].[entity_key]<>[Recr1008]))
                                     |--Index Spool(SEEK:([p].[parent_key]=[Recr1008]))
                                          |--Table Scan(OBJECT:([tempdb].[dbo].[#linkage] AS [p]))

以下是XML格式的相同计划,以防您喜欢这种东西:

http://pastebin.com/Kx559C10

我还应该注意到,这个盒子有12个CPU,所以如果有某种方法可以引入一些并行性,那么这可能会有所帮助。

有人能推荐一种加快速度的方法吗?

您是否尝试过对parent_key进行索引并将entity_key添加为包含列?

用NULL父节点标记根节点,而不是指向它们自己,应该会有所帮助:

declare @linkage table (entity_key bigint, parent_key bigint null) 
insert into @linkage values
  (1, NULL), (2, NULL), (3, NULL), (4, 1), (5, 4), (6, 5), (7, 3), (8, 7), (9, 5) 
;with r(entity_key, immediate_parent, root, level) as 
(
  -- Faster search for NULL to find roots.
  select entity_key, entity_key as immediate_parent, entity_key as root, 1 
    from @linkage 
    where parent_key is NULL
  union all
  -- No WHERE clause needed.
  select p.entity_key, r.entity_key, r.root, r.level + 1 
    from r inner join
      @linkage as p on p.parent_key = r.entity_key  
) 
select *
  from r

最新更新