AWS Glue 爬网程序无法识别历史文件上的一致 CSV 架构



我们有一个包含.csv和.ctl文件的文件夹。CSV 是每日文件,在一段时间内每天总共五个文件。它们的命名约定是一个前缀字符串,后跟一个日期标识符(例如:ABCDE090619.csv(。五个每日文件中每个文件的标题行随着时间的推移是一致的。

Glue 爬网程序的预期行为是识别五个表架构,并为每个表中的当天数据创建一行。相反,爬网程序会为每个文件创建一个单独的架构。总共大约550个。

是否有任何机制可以驱动这种行为?我们的考虑因素目前包括命名约定,但根据 Glue 文档,只有文件架构才重要。

谢谢。

对爬网程序使用"为每个 S3 路径创建单个架构"选项可能会有所帮助。在控制台中,它位于爬网程序配置的"S3 数据的分组行为"下的"输出"部分。

更新:使用上述选项时,必须将具有不同架构的文件分隔到不同的文件夹中。您可以将爬网程序指向根文件夹,但文件夹结构会告诉它将哪些文件组合在一起。

最新更新