用于查询 ADL 存储中的文件夹和文件的 .Net API



我们按照配置的时间间隔从 EDS 获取馈送。例如:如果推送配置为每 8 小时一次。对于员工表,ADL 中的文件夹结构将如下所示:

Employee
  20171116
      Employee_20171116_00:00
      Employee_20171116_08:00
      Employee_20171116_16:00
  20171117
      Employee_20171117_00:00
      Employee_20171117_08:00
      Employee_20171117_16:00

等等....

初始完全推送后,这些文件将具有增量记录(文件中将有指示器以区分全拉取与增量模式(我正在使用水印方法以增量方式拉取这些增量文件; 所以我将存储上次处理文件的日期和时间戳。在下次运行时,我需要选择上次运行后存储的文件。因此,我需要按升序查询所有文件名,并寻找可用的适当客户端 api。

提前感谢!!

根据您的处理要求,您可以使用

  1. U-SQL。在这种情况下,请查看文件集。
  2. .NET SDK for Azure Data Lake Store: https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-data-operations-net-sdk

相关内容

  • 没有找到相关文章

最新更新