AWS Glue:如何确保Glue爬网程序始终从S3中获取最新文件



我有一个ETL管道,它每15分钟向S3输出一个.csv文件。我如何配置一个胶水爬行器,使其只拾取最新的文件,而不是使用所有文件。

使用增量爬网:

对于亚马逊简单存储服务(Amazon S3(数据源,增量爬网仅爬网自上次爬网运行以来添加的文件夹。如果没有此选项,爬网程序将爬网整个数据集。…要执行增量爬网,您可以在AWS Glue控制台中设置仅爬网新文件夹选项,或在API的CreateCrawler请求中设置RecrawlPolicy属性。

最新更新