我有一些excel文件需要处理。。要么将它们发送到内部部署sql数据库,要么输出更结构化的csv文件。这些文件可以运行到100MB,并且有多张图纸。图纸和数据是动态的。有些文件可能会得到一些工作表,也可能不会。列也是相同的。另外一点是,每个文件都有一个数据字典表,用于解释结构(表和相应的列(
这肯定不能仅通过ADF中的简单复制活动来处理。我在databricks中编写了一个scala代码,用于处理大部分处理。
我正在考虑使用ADF与Databricks一起编排流程。
我还考虑了Azure功能应用程序,而不是数据块。
我是整个Azure域的新手。我想看看在成本和性能方面处理这种情况的最佳方式是什么。
这也可以使用ADF中的数据流活动来处理吗?我尝试过,但在使用内部数据库等方面也遇到了很多限制
您可以尝试两种方法。一种是在ADF中使用映射数据流,另一种是您可以使用ADF中的Databricks Notebook活动运行DatabricksNotebook。
映射数据流是Azure中可视化设计的数据转换数据工厂。数据流允许数据工程师开发数据转换逻辑而不编写代码。由此产生的数据流作为Azure数据工厂管道中的活动执行使用扩展的ApacheSpark集群。
即使数据库在本地,也可以使用自托管集成运行时轻松访问数据。请参阅本第三方教程,了解如何在ADF中部署自托管IR,并使用它连接本地SQL Server。您也可以通过使用私有端点来引用这种替代方法。完成后,您可以在数据流活动中使用数据库。
现在,第二个选项是在ADF管道中使用Databricks Notebook活动。这与运行Databricks作业相同,但在这里您将使用ADF触发它。
Azure数据工厂管道针对Databricks作业群集。它还传递Azure数据工厂参数在执行过程中转移到Databricks笔记本。
您可以使用时间表或基于事件的触发器来触发这些管道,使其完全自动化。