Athena查询错误HIVE_BAD_DATA:无效的Parquet文件.csv/.metadata

我正在创建一个应用程序，该应用程序与AWS Athena一起处理压缩的Parquet(SNAPPY(数据。它几乎可以正常工作，但是，每次执行查询后，都会有2个文件上载到类型为csv和metadata的S3_OUTPUT_BUCKET。(应该如此(这两个文件中断了下一个查询的执行。我得到以下错误：

HIVE_BAD_DATA: Not valid Parquet file: s3://MY_OUTPUT_BUCKET/logs/QUERY_NAME/2022/08/07/tables/894a1d10-0c1d-4de1-9e61-13b2b0f79e40.metadata expected magic number: PAR1 got: HP

我需要手动删除这些文件，以便下一次查询工作。关于如何使这项工作发挥作用，有什么建议吗？(我知道我不能用正则表达式等来排除这些文件。但我不想手动删除这些文件以使应用程序正常工作(

我阅读了关于输出文件的所有内容，但没有帮助。(使用查询结果、最近的查询和输出文件(

感谢您的帮助。

在设置执行Athena时，我们需要指定来自查询执行的元数据和csv的写入位置。这需要写入到不同于表位置的文件夹中。

转到Athena查询编辑器>设置>管理将Query Result Location编辑为该表以外的另一个S3 bucket或同一bucket内的不同文件夹。

相关内容

最新更新

热门标签：