S3中从多个zip文件加载athena表的问题



我需要在S3中从多个文件夹的多个zip文件创建一个Athena表。

我在S3中有一个文件夹结构如下:S3 bucket==>客户端文件夹===>用于多个国家/地区的多个文件夹,如(美国、日本、英国…直至50个国家(===>每个国家文件夹中有10到50个".gz"文件

我需要合并所有区域文件夹中的所有".gz"文件,并在S3中创建一个表,我使用了粘合爬网程序和分类器,但文件没有合并到表中。

请帮助我用其他方法从的所有文件在Athena上创建一个表"companies_all_regions">

您可以在bucket的顶层创建一个Amazon Athena外部表。该级别和子文件夹中的所有文件都将包含在表中。所有文件都需要采用相同的格式。

如果您的CSV文件在列中包含逗号,则需要将该列的值置于";双引号内";。

如果能够更改文件的创建方式,则可以选择其他列分隔符,例如管道(|(字符。这将避免字段值中使用逗号的问题。然后可以将表配置为使用管道作为分隔符。

相关内容

  • 没有找到相关文章