SSIS在远程服务器(Greenplum) Datalake上完美运行,但需要8个多小时



SSIS Package在远程服务器(Greenplum envt)上执行ETL。它运行良好,但需要8个多小时才能完成。远程服务器交互表上的数据非常庞大(每个表大约有10亿行)。在SSIS上是否有一种方法或任何选项专门用于大量数据?

远程服务器:Data Lake (Greeplum)PS:由于公司政策,我无法在数据湖上调度我的查询,但如果在数据湖上手动运行相同的脚本,则需要大约1小时20分钟才能完成作业。

谢谢!

SSIS如何执行ETL?它运行insert into .. values ...吗?如果是这样,预计性能会很差,因为插入开销很高。有几个参数可以提供帮助(参考https://greenplum.org/oltp-workload-performance-improvement-in-greenplum-6/):

)
  • gp_enable_global_deadlock_detector
  • checkpoint_segments

然而,建议为什么做ETL是通过gpload/gpfdist(或gpss)

相关内容

  • 没有找到相关文章

最新更新