我在S3 Bucket中有JSON文件,这些文件可能会不时更改其模式。为了能够分析我想要定期在它们上运行胶水爬行器的数据,Athena中的分析通常是有效的。
问题:我的时间戳字符串未被识别为时间戳
时间戳目前有以下格式2020-04-06T10:37:38+00:00
,但我也尝试过其他格式,例如2020-04-06 10:37:38
-我可以控制它,并可以调整格式。
设置serde参数的建议可能不适用于我的应用程序,我希望完全识别该方案,而不必单独定义每个字段。(AWS Glue:爬网程序无法识别CSV格式的时间戳列(表中的手动调整通常是不需要的,我想在CloudFormation堆栈中自动部署Glue。
你知道我还能尝试什么吗?
这是一个非常常见的问题。在读取text/json文件时,我们解决这个问题的方法是,在转换和设置正确的数据类型之间有一个额外的步骤。爬网程序的数据类型有时有点不确定,并且基于当时可用的数据样本