是否需要在1个s3文件夹中有1个表模式,以便爬虫可以在AWS Glue中挑选数据?



当我尝试在s3文件夹中有多个文件(具有不同的表模式)并使用爬虫和AWS glue使用该位置创建多个表时,athena不检测任何数据,它给出空白数据。但是,如果我们的文件只有单个表模式(具有相同列结构的表),那么它可以很好地检测数据。所以问题是,是否有一种方法athena可以创建多个表具有不同的结构从同一个s3文件夹?

我试过为不同的文件创建不同的文件夹,爬虫很好地捡起表模式,它给了我们确切的结果,但是这是不可行的,因为为100个文件创建不同的文件夹不是一个解决方案。因此寻找另一种方法

在Amazon Athena(和AWS Glue)中定义表时,location参数应该指向Amazon S3桶中的文件夹路径。

当运行查询时,Athena将查找文件夹中的每个文件,包括子文件夹.

因此,您应该只在该目录中保留相同格式(和模式)的文件。以及它所有的子目录。所有这些文件将填充到一个表中。

如果要填充不同的表或具有不同的模式,则将多个文件放在同一个目录中。