如何在数据砖增量多群集环境中维护主键列



我正在尝试复制类似SQL DB的功能,即在Databrciks Delta方法中维护主键,其中数据被写入Blob存储,如ADLS2或AWS S3。

我想要使用数据砖增量的自动递增主键功能。

现有方法 -使用最新的行计数并维护主键。但是,此方法不适用于主键获取重复数据的并行处理环境。

在表中创建标识列是解决此问题的方法。标识列现已在数据砖运行时 10.4+ 和数据砖 SQL 2022.17+ 中正式发布(正式发布)。

用于创建标识列的数据砖文档:https://www.databricks.com/blog/2022/08/08/identity-columns-to-generate-surrogate-keys-are-now-available-in-a-lakehouse-near-you.html

最新更新