我们按照配置的时间间隔从 EDS 获取馈送。例如:如果推送配置为每 8 小时一次。对于员工表,ADL 中的文件夹结构将如下所示:
Employee
20171116
Employee_20171116_00:00
Employee_20171116_08:00
Employee_20171116_16:00
20171117
Employee_20171117_00:00
Employee_20171117_08:00
Employee_20171117_16:00
等等....
初始完全推送后,这些文件将具有增量记录(文件中将有指示器以区分全拉取与增量模式(我正在使用水印方法以增量方式拉取这些增量文件; 所以我将存储上次处理文件的日期和时间戳。在下次运行时,我需要选择上次运行后存储的文件。因此,我需要按升序查询所有文件名,并寻找可用的适当客户端 api。
提前感谢!!
根据您的处理要求,您可以使用
- U-SQL。在这种情况下,请查看文件集。
- .NET SDK for Azure Data Lake Store: https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-data-operations-net-sdk