SSIS Package在远程服务器(Greenplum envt)上执行ETL。它运行良好,但需要8个多小时才能完成。远程服务器交互表上的数据非常庞大(每个表大约有10亿行)。在SSIS上是否有一种方法或任何选项专门用于大量数据?
远程服务器:Data Lake (Greeplum)PS:由于公司政策,我无法在数据湖上调度我的查询,但如果在数据湖上手动运行相同的脚本,则需要大约1小时20分钟才能完成作业。
谢谢!
SSIS如何执行ETL?它运行insert into .. values ...
吗?如果是这样,预计性能会很差,因为插入开销很高。有几个参数可以提供帮助(参考https://greenplum.org/oltp-workload-performance-improvement-in-greenplum-6/):
- gp_enable_global_deadlock_detector
- checkpoint_segments
然而,建议为什么做ETL是通过gpload/gpfdist(或gpss)