我正在将主键/组合键插入到带有identity(1,1) bigint
列的中间数据库表中。在更传统的关系数据库中,对于表中的每个新键,此列递增 1,从而为值创建一个代理键。但是,在 Azure SQL DW 中,这些值是不连续的,如文档中所述:
属性不保证代理项值的分配顺序,这反映了 SQL Server 和 Azure SQL 数据库的行为。但是,在 Azure SQL 数据仓库中,缺少保证的情况更为明显。
因此,我的表中只有 4 个唯一值的id
列将如下所示:
id, 1, 6, 8, 20
而不是id, 1, 2, 3, 4
我知道我可以通过使用row_number()
函数和表中代理项id
列的max
来自己创建代理键来解决此问题。但是,我担心这不是Azure SQL DW的意图,并且会阻碍数据库性能。
declare @current_val as bigint = (select coalesce(max(id), 0) from dbo.reseeding_table);
因此,我担心 ididentity
列的值会跳到其限制之外,因为它是由 Azure 实现的。我是否应该信任 Azure SQL DWidentity
列的功能?
正如Greg Galloway所指出的,这个问题与最近关于顺序值的主题非常相似。
因为你提出了几个具体的担忧,我认为它足够不同,需要自己的答案。
-
使用 row_number() 不会妨碍性能。我一直使用它,而不是IDENTITY。
-
您绝对可以信任标识函数。您可能已经注意到,这些数字会随着配置中的节点数而增加,这不是随机的。您将始终获得一个新号码。
需要注意的是,您不应该一次插入一行,如果您担心顺序 ID,您可能会这样做。您会发现单个插入非常慢,如果由许多进程执行,可能会导致并发问题。考虑对数据进行微批处理,并使用 Polybase 加载数据以获得最佳性能。