小贝子编程

AWS Glue:如何确保Glue爬网程序始终从S3中获取最新文件

本文关键字：Glue S3 获取文件最新程序何确保 AWS 确保 amazon-web-services amazon-s3 aws-glue
更新时间 : 2023-09-21
英文 : AWS Glue : How to make sure glue crawler always picks up the latest file from S3

我有一个ETL管道，它每15分钟向S3输出一个.csv文件。我如何配置一个胶水爬行器，使其只拾取最新的文件，而不是使用所有文件。

使用增量爬网：

对于亚马逊简单存储服务(Amazon S3(数据源，增量爬网仅爬网自上次爬网运行以来添加的文件夹。如果没有此选项，爬网程序将爬网整个数据集。…要执行增量爬网，您可以在AWS Glue控制台中设置仅爬网新文件夹选项，或在API的CreateCrawler请求中设置RecrawlPolicy属性。

最新更新

在互斥锁上使用多个std::unique_lock，所有线程在FIFO等待进程?
Command error out with exit status 1: python setup.py egg_in
当NPM应用在子文件夹中时，NPM版本命令不创建git标签
Prometheus导出器的正则表达式模式
Lua代码构建具有重复功能的堡垒之夜问题
JsonPath - Restrict To Research to One level
将列表的列表转换为映射列表
CVXPY二次规划- ArpackNoConvergence error and AssertionError
Xamarin Binding表达式中的格式文本
我需要调用两个api在Reactjs
库未加载:/opt/homebrew/opt/fmt/lib/libfmt.9.dylib
(NestJS, TypeORM) Javascript承诺:在此之前调用Finally块
Kusto -帮助编写KQL Pivot
Python tkinter滚动条:是否可以通过单击arrow1或arrow2来设置要移动的像素数?
避免在Rails#where中绑定变量
复制、修改和发送请求POST Fiddler
调用一个获取并返回字符串的用户方法，就像在c#中调用.net中的大多数字符串类方法一样
Configure ForwardHeadersMiddleware from appsettings?
count(1)和postgres中不同的行为
如何为Vue中动态生成的一个元素设置不同的样式
计算SQL Oracle中的百分比
如何打开没有Adobe动画的FLA文件?
一个Android模块如何知道另一个模块，而不声明它作为依赖?
Selenium日志隐藏在python中
实现客户端流到服务器Python代码失败
DllNotFoundException: agoraSdkCWrapper with Agora in Unity o
Rust narray:按列顺序遍历数组
如何加载存储在同一DAT文件中的多个python对象?
代理跨域请求与angular——proxy.config
属性错误："函数"对象没有属性"args"

AWS Glue:如何确保Glue爬网程序始终从S3中获取最新文件

相关内容

最新更新

热门标签：