我正在创建一个应用程序,该应用程序与AWS Athena一起处理压缩的Parquet(SNAPPY(数据。它几乎可以正常工作,但是,每次执行查询后,都会有2个文件上载到类型为csv
和metadata
的S3_OUTPUT_BUCKET
。(应该如此(这两个文件中断了下一个查询的执行。我得到以下错误:
HIVE_BAD_DATA: Not valid Parquet file: s3://MY_OUTPUT_BUCKET/logs/QUERY_NAME/2022/08/07/tables/894a1d10-0c1d-4de1-9e61-13b2b0f79e40.metadata expected magic number: PAR1 got: HP
我需要手动删除这些文件,以便下一次查询工作。关于如何使这项工作发挥作用,有什么建议吗?(我知道我不能用正则表达式等来排除这些文件。但我不想手动删除这些文件以使应用程序正常工作(
我阅读了关于输出文件的所有内容,但没有帮助。(使用查询结果、最近的查询和输出文件(
感谢您的帮助。
在设置执行Athena时,我们需要指定来自查询执行的元数据和csv的写入位置。这需要写入到不同于表位置的文件夹中。
转到Athena查询编辑器>设置>管理将Query Result Location编辑为该表以外的另一个S3 bucket或同一bucket内的不同文件夹。