目前,我采用的方法是,
-
使用python、清除表中的行
-
在python中获取视图的输出,并将结果存储在df中
-
使用python中的df.to_Sql将数据附加到表中。
-
安排此脚本每天在指定时间运行(defect(。
我发现这种方法不吸引人是因为以下原因:
-
这个方法是外部的,因此它涉及延迟。
-
这个方法受到各种依赖关系的影响,比如我为python使用的sql连接器,类似于defect的调度器,如果我有10个以上的表,调试可能会变得棘手。。
是否有更好的方法/package/tools来以最少的依赖性和延迟来自动化流程?
您已经尝试过Prefect 2了吗?关于加载过程,您可以考虑将数据加载到临时表并从那里进行合并——通过在SQL中这样做,可能会更快、更容易地进行故障排除。dbt也是一个您可以考虑的工具,您可以使用defect dbt包将dbt与defect进行协调:https://github.com/PrefectHQ/prefect-dbt