我正在数据湖的顶部构建一个Iceberg表。这些表格用于报告工具。我正试图找出在CI/CD过程中控制版本/部署对这些表的更改的最佳方法。例如,我想在Iceberg表中添加一列。要做到这一点,我必须编写一个ALTER TABLE
语句,将其保存到git存储库中,并通过CI/CD管道进行部署。可通过AWS Glue Catalog访问表格。我在谷歌上找不到太多关于这方面的信息,所以如果有人能分享一些知识,我将不胜感激。
干杯。
Iceberg表格的版本控制。
同意@Fokko Driesprong的意见。这只是一个补充。有时,表更改被视为任务版本更改的一部分。也就是说,表更改语句ALTER TABLE
与任务升级绑定。任务有时是自动部署的。因此,它通常先执行一个表更改语句,然后部署一个新任务。如果更改具有破坏性,那么我们需要先停止旧任务,然后部署新任务。与升级相对应,我们还有一个回滚脚本,当然还有相应的表更改语句。