当我尝试在s3文件夹中有多个文件(具有不同的表模式)并使用爬虫和AWS glue使用该位置创建多个表时,athena不检测任何数据,它给出空白数据。但是,如果我们的文件只有单个表模式(具有相同列结构的表),那么它可以很好地检测数据。所以问题是,是否有一种方法athena可以创建多个表具有不同的结构从同一个s3文件夹?
我试过为不同的文件创建不同的文件夹,爬虫很好地捡起表模式,它给了我们确切的结果,但是这是不可行的,因为为100个文件创建不同的文件夹不是一个解决方案。因此寻找另一种方法
在Amazon Athena(和AWS Glue)中定义表时,location
参数应该指向Amazon S3桶中的文件夹路径。
当运行查询时,Athena将查找文件夹中的每个文件,包括子文件夹.
因此,您应该只在该目录中保留相同格式(和模式)的文件。以及它所有的子目录。所有这些文件将填充到一个表中。如果要填充不同的表或具有不同的模式,则不将多个文件放在同一个目录中。