AWS Glue Crawler issue



我需要一个ETL进程,其中原始数据将每天1次加载到s3 bucket (Zip可能包含30到50个具有不同模式的单独文件)。数据每天都是新的,可能有也可能没有相同的模式。我解压缩了数据并将其加载到1 s3桶中,并抓取了文件并运行了一些作业并处理了数据。现在的问题是,当第二天加载新的原始数据时,当我再次抓取新更新的文件夹时,Glue目录中的表保持不变,具有相同的数据引用。

如果日期每天都在变化,并且应该在第二天创建新表,我有什么替代选项?或者我怎么能只读取新的数据?? ?

我尝试用相同的爬虫和相同的DB与不同的s3文件夹抓取新文件夹。

新原始文件的模式似乎与爬虫已经爬行的模式相同。在这种情况下,您将看不到新表的创建。这就是Crawler的工作原理。

要确认这一点,通过选择爬虫创建的表使用Athena查询文件,您应该能够看到来自所有文件的所有数据。

只有当这些新文件的模式不同时,才会创建新表。

要了解Crawler是如何工作的,请尝试一下这个文档。

相关内容

  • 没有找到相关文章

最新更新