获取 Azure 数据湖目录中所有文件的列表,以便在 ADFV2 中进行查找活动



我在 azure 数据湖存储中有许多文件,我正在 ADFV2 中创建一个管道,以获取 ADLS 中文件夹中所有文件的列表。怎么做?

应使用"获取元数据"活动。 检查这个

您可以按照以下步骤列出 ADLS 中的文件。

1:使用 ADLS SDK 获取特定目录中的列表文件名并输出结果。比如这里的Java SDK。当然,你可以使用.net或Python。

// list directory contents
List<DirectoryEntry> list = client.enumerateDirectory("/a/b", 2000);
System.out.println("Directory listing for directory /a/b:");
for (DirectoryEntry entry : list) {
printDirectoryInfo(entry);
}
System.out.println("Directory contents listed.");

2. 编译文件以便可以执行。将其存储到 Azure Blob 存储中。

3.使用 Azure 数据工厂中的自定义活动配置 Blob 存储路径并执行程序。更多详情,请遵循此文档。

可以在 Azure 数据工厂中使用自定义活动。

https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-get-started-java-sdk#list-directory-contents

最新更新