我正在创建一个从S3桶和Snowflake表中提取数据的系统(我也可以访问这个SF门户)。我将在Databricks笔记本中运行数据质量/数据验证。我的问题是,当我拉这个数据在我必须阶段它以某种方式运行那些DQ检查。将这些数据放置在Databricks门户或Snowflake门户中更有意义吗?
感谢我研究了什么:databricks + snowflake stage and architecture
一般来说,将数据保存在尽可能靠近处理数据的位置通常是个好主意。如果Databricks将会直接处理数据那么保存数据在Databricks中;如果Databricks将下推处理到Snowflake,那么保存Snowflake
中的数据