我需要创建一个GUI来获得一些用户输入,他们也可以从GUI导入CSV文件。导入文件后,我想使用Azure databricks(pyspark(对该文件进行数据转换,并将转换后的数据存储在某个地方,以便用户可以下载转换的数据。我想知道如何使其成为一个通用管道,以便组织中的任何人都可以上传他们的文件(它可以有不同的列和数据类型(,数据块进行转换并存储结果。对于所有这些活动,我想利用Azure平台。
你的问题很模糊,但这里有一些建议。
构建您的UI以将文件上传到ADLS Gen2 blob存储中的文件夹。此处为示例。您的ASP。NET应用程序可以使用Jobs API启动数据砖笔记本进行转换。或者,您可以使用Azure中的事件网格作为检测新文件并对其进行处理的替代方案。如果除了数据块之外,ADF(Azure数据工厂(中还有您需要的功能,您可以通过上传启动ADF作业。您的ADF也可以使用databricks活动调用databricks。
由于以上所有内容都与您的web应用程序异步,因此您需要通知用户该文件可用。您可以让UI根据约定和/或元数据检测新文件,或者在数据块作业结束时调用Sendgrid(或通过事件网格(发送通知电子邮件。
因此,有几个选择。保持简单:(