Azure权限中的Databricks笔记本谱系



如果我从ADLS读取文件到PySpark数据帧,并以不同的文件格式写回另一个ADLS文件夹,那么在Hive metastore中捕获的谱系是否可以显示这种操作?

目前这个谱系还没有显示出来——然而,Purview在幕后使用Atlas,因此您可能可以使用API捕获这个谱系。

这里有一个Spline被用来跟踪笔记本谱系的例子:https://intellishore.dk/data-lineage-from-databricks-to-azure-purview/

本文讨论了如何开始使用Purview REST API:https://techcommunity.microsoft.com/t5/azure-architecture-blog/exploring-purview-s-rest-api-with-python/ba-p/2208058

您可以使用基于OpenLineage的Databricks to Purview解决方案加速器来摄取Databricks提供的血统。通过部署解决方案加速器,您将拥有一组Azure功能和一个Databricks集群,可以从Databricks笔记本/作业中提取逻辑计划,并将其自动转换为Apache Atlas/Microsoft Purview实体。

  • 支持以下数据源的Spark笔记本和作业的表级沿袭:
    • SQL Azure
    • Azure Synapse Analytics
    • Azure数据湖Gen 2
    • Azure Blob存储
    • 三角洲湖
  • 支持Spark 3.1和3.0(交互和作业集群)/Spark 2。x(作业集群)
  • Databricks当前支持6.4和10.3之间的运行时间
  • 可以配置为每个集群或所有集群作为全局配置
  • 一旦配置,不需要对笔记本或作业进行任何代码更改

最新更新