胶水S3目标路径匹配两个级别的特定子文件夹


bucket/
├── seoul/
│   ├── weather/
│   │   └── data.json
│   └── gdp/
│       └── data.json
├── tokyo/
│   ├── weather/
│   │   └── data.json
│   ├── gdp/
│   │   └── data.json
│   └── transit/
│       └── data.json
├── seattle/
│   ├── weather/
│   │   └── data.json
│   └── cost-of-living/
│       └── data.json
├ ....

我想在水桶中抓取所有weather数据。如AWS文档中所述,我将S3目标路径设置为

s3://bucket/*/weather

但是,胶水爬车手与任何数据不匹配。创建0表。我应该如何设置胶水目标,以便我可以收集所有天气数据?

球模式以排除模式支持。因此,对于您的情况,请尝试将目标设置为s3://bucket/,并为*/gdp/**,*/transit/**,*/cost-of-living/**

添加排除条件

如果没有太多的文件夹要排除, @yuriy bondaruk有很好的答案。但是,就我而言,有很多文件夹可排除,并且不能保证当前文件树已修复。

因此,我将构建嵌套 CloudFormation。

  1. 基本的云形式:以城市为输入并运行轨道。
  2. 非常长的云形式模板:将城市名称作为参数和呼叫基本云形式。

最新更新