在转换逻辑的银层和金层中,每个表都有一个ADF管道(看到这些表之间有很多依赖关系(。
布局示例:
银色:
- Silver_Pipeline_Table_1
- Silver_Pipeline_Table_2
黄金:
- Gold_Pipeline_Table_1
- Gold_Pipeline_Table_2
如果要进行作业集群设置,会为每个Databricks活动启动一个集群吗?这不是很贵吗?还是作业集群平均分配作业?例如,如果我有40个管道,每个管道每天大约在同一时间运行一个Databricks Notebook调用,那么它会启动40个作业集群,每个集群每小时收费X DBU吗?
这不是您答案的作业集群特定性的答案,但对于我们的用例,我们为ADF笔记本使用交互式/非作业集群。我们处理";"中小数据";,而不是";"大数据";,因此,我们可以通过旋转一个交互式集群来处理所有笔记本电脑。如果处理的时间更受限制,我们会为每个重型笔记本换成专用的作业集群。我还对作业集群成本模型提出了质疑,正如你所说,如果你产生40个作业集群,那么你也将为40*DBUpernotebookcluster付费。这对我们来说成本太高了,我们只需要一个共享的交互式集群就可以了。