AWS Glue Crawler issue

我需要一个ETL进程，其中原始数据将每天1次加载到s3 bucket (Zip可能包含30到50个具有不同模式的单独文件)。数据每天都是新的，可能有也可能没有相同的模式。我解压缩了数据并将其加载到1 s3桶中，并抓取了文件并运行了一些作业并处理了数据。现在的问题是，当第二天加载新的原始数据时，当我再次抓取新更新的文件夹时，Glue目录中的表保持不变，具有相同的数据引用。

如果日期每天都在变化，并且应该在第二天创建新表，我有什么替代选项?或者我怎么能只读取新的数据?? ?

我尝试用相同的爬虫和相同的DB与不同的s3文件夹抓取新文件夹。

新原始文件的模式似乎与爬虫已经爬行的模式相同。在这种情况下，您将看不到新表的创建。这就是Crawler的工作原理。

要确认这一点，通过选择爬虫创建的表使用Athena查询文件，您应该能够看到来自所有文件的所有数据。

只有当这些新文件的模式不同时，才会创建新表。

要了解Crawler是如何工作的，请尝试一下这个文档。

相关内容

最新更新

热门标签：