我有一个Databrick笔记本里面的功能,从Snowflake和S3拉,数据应该在Databrick或Snowflak



我正在创建一个从S3桶和Snowflake表中提取数据的系统(我也可以访问这个SF门户)。我将在Databricks笔记本中运行数据质量/数据验证。我的问题是,当我拉这个数据在我必须阶段它以某种方式运行那些DQ检查。将这些数据放置在Databricks门户或Snowflake门户中更有意义吗?

感谢我研究了什么:databricks + snowflake stage and architecture

一般来说,将数据保存在尽可能靠近处理数据的位置通常是个好主意。如果Databricks将会直接处理数据那么保存数据在Databricks中;如果Databricks将下推处理到Snowflake,那么保存Snowflake

中的数据

最新更新