Azure Datalake Store Gen2使用scala spark库从Databricks读取文件



我正试图在Azure Databricks(而不是笔记本电脑(上部署一个Scala库来执行一些计算。我正在尝试从Azure Datalake Store Gen 2目录中读取一些avro文件,执行一些操作,然后使用avro将其再次存储在另一个目录中。

我遵循这本指南。

我的理解是,我需要装载Azure Datalake的目录,这样我就可以直接从那里读取avro文件,所以我需要做这样的事情:

dbutils.fs.mount(
source = "abfss://<file-system-name>@<storage-account-name>.dfs.core.windows.net/",
mountPoint = "/mnt/<mount-name>",
extraConfigs = configs)

我的问题是,我不知道如何将"dbutils"对象导入到我的项目中。我也在使用Java SDK库(版本12.0.0-preview.6(来检索文件,但基本上我不知道如何使用Databricks。

如有任何帮助或提示,我们将不胜感激。

如果要使用dbutils装载目录,则不需要Azure Storage Java SDK(反之亦然(。

dbutils装载可以用于装载存储帐户一次,因此之后您可以只使用/mnt路径。

您可以在以下存储库中找到dbutils:

libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"

更多信息,请访问:https://docs.databricks.com/dev-tools/databricks-utils.html#databricks-实用程序api库

您也可以始终直接使用abfss路径,因此不必严格安装东西。

相关内容

  • 没有找到相关文章

最新更新