Azure Datalake Store Gen2使用scala spark库从Databricks读取文件

我正试图在Azure Databricks(而不是笔记本电脑(上部署一个Scala库来执行一些计算。我正在尝试从Azure Datalake Store Gen 2目录中读取一些avro文件，执行一些操作，然后使用avro将其再次存储在另一个目录中。

我遵循这本指南。

我的理解是，我需要装载Azure Datalake的目录，这样我就可以直接从那里读取avro文件，所以我需要做这样的事情：

dbutils.fs.mount(
source = "abfss://<file-system-name>@<storage-account-name>.dfs.core.windows.net/",
mountPoint = "/mnt/<mount-name>",
extraConfigs = configs)

我的问题是，我不知道如何将"dbutils"对象导入到我的项目中。我也在使用Java SDK库(版本12.0.0-preview.6(来检索文件，但基本上我不知道如何使用Databricks。

如有任何帮助或提示，我们将不胜感激。

如果要使用dbutils装载目录，则不需要Azure Storage Java SDK(反之亦然(。

dbutils装载可以用于装载存储帐户一次，因此之后您可以只使用/mnt路径。

您可以在以下存储库中找到dbutils：

libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"

更多信息，请访问：https://docs.databricks.com/dev-tools/databricks-utils.html#databricks-实用程序api库

您也可以始终直接使用abfss路径，因此不必严格安装东西。

相关内容

最新更新

热门标签：