大数据表的版本控制(冰山)



我正在数据湖的顶部构建一个Iceberg表。这些表格用于报告工具。我正试图找出在CI/CD过程中控制版本/部署对这些表的更改的最佳方法。例如,我想在Iceberg表中添加一列。要做到这一点,我必须编写一个ALTER TABLE语句,将其保存到git存储库中,并通过CI/CD管道进行部署。可通过AWS Glue Catalog访问表格。我在谷歌上找不到太多关于这方面的信息,所以如果有人能分享一些知识,我将不胜感激。

干杯。

Iceberg表格的版本控制。

同意@Fokko Driesprong的意见。这只是一个补充。有时,表更改被视为任务版本更改的一部分。也就是说,表更改语句ALTER TABLE与任务升级绑定。任务有时是自动部署的。因此,它通常先执行一个表更改语句,然后部署一个新任务。如果更改具有破坏性,那么我们需要先停止旧任务,然后部署新任务。与升级相对应,我们还有一个回滚脚本,当然还有相应的表更改语句。

感谢您提出这个问题。我不认为有一个明确的方法来做到这一点。在实践中,我看到大多数人把这作为写冰山表工作的一部分。通过这种方式,您可以确保使用作业的新版本立即填充新列。如果不进行任何中断更改(例如删除列(,则下游作业不会中断。希望这能有所帮助!

最新更新