Azure权限中的Databricks笔记本谱系

如果我从ADLS读取文件到PySpark数据帧，并以不同的文件格式写回另一个ADLS文件夹，那么在Hive metastore中捕获的谱系是否可以显示这种操作?

目前这个谱系还没有显示出来——然而，Purview在幕后使用Atlas，因此您可能可以使用API捕获这个谱系。

这里有一个Spline被用来跟踪笔记本谱系的例子:https://intellishore.dk/data-lineage-from-databricks-to-azure-purview/

本文讨论了如何开始使用Purview REST API:https://techcommunity.microsoft.com/t5/azure-architecture-blog/exploring-purview-s-rest-api-with-python/ba-p/2208058

您可以使用基于OpenLineage的Databricks to Purview解决方案加速器来摄取Databricks提供的血统。通过部署解决方案加速器，您将拥有一组Azure功能和一个Databricks集群，可以从Databricks笔记本/作业中提取逻辑计划，并将其自动转换为Apache Atlas/Microsoft Purview实体。

支持以下数据源的Spark笔记本和作业的表级沿袭:
- SQL Azure
- Azure Synapse Analytics
- Azure数据湖Gen 2
- Azure Blob存储
- 三角洲湖
支持Spark 3.1和3.0(交互和作业集群)/Spark 2。x(作业集群)
Databricks当前支持6.4和10.3之间的运行时间
可以配置为每个集群或所有集群作为全局配置
一旦配置，不需要对笔记本或作业进行任何代码更改

相关内容

最新更新

热门标签：