ETL工具迁移:并行运行中的最佳实践



我是ETL迁移的新手。我曾与Talend合作过,但还没有面临将大型ETL项目从一个工具迁移到另一个工具的任务(IBM Data Manager到Informatica PowerCenter或Informatica Developer)。

我正在寻找将工作从一个工具迁移到另一个工具的通用指南,当然还有我的具体案例。

我会更清楚:

数据库源和Targes将是相同的,我必须迁移的是ETL部分本身。

该方法将是并行运行,如本博客所建议的:

并行运行

在我的情况下,我不必迁移所有DWH,而只迁移ETL,因为旧软件将成为遗留软件,而新软件来自另一个供应商(幸运的是,他们都可以导出XML)。

我正在寻找并行运行的实用方法,事实上,有人建议我在原始数据库模式中复制Sources和Targes表,但在我看来,这不是最好的方法(即使一个模式有很多表时也不是实用的)。

当然,我所熟悉的DWH在Oracle中有几个DBS实例,在SQL Server中有一些,一个测试服务器和一个生产服务器,每个都有一个暂存、存储和数据集市区域。

从这个相关的问题及其答案来看,我正在考虑为每个项目随时复制每个模式。

ETL中的暂存:最佳实践

希望有参考指南,但我的具体案例是从IBM Data Manager迁移到Informatica PowerCenter

该方法取决于各种标准和个人偏好。无论哪种方式,您都需要复制部分或全部源系统和目标系统。在一个极端,您可以使用整个系统的两个实例。如果您有复杂的上游流程作为测试的一部分,或者您有大量的表和流程,并且您有复制系统的带宽和资源,那么这种方法可能是最佳的。

另一个极端是,如果ETL工具本身发生了任何复杂的过程,或者您只是在加载表并需要检查它们是否正确加载,那么制作表的副本并将新的或旧的工具指向表副本可能是一种方法。这种方法非常简单,易于设置。

请记住,这个论坛并不是要取代博客和关于这些技术的深入科技文章。

最新更新