是否可以不使用爬虫直接在AWS Glue中读取定长文件?



是否可以使用DynamicFrameReader from_options在AWS Glue中读取固定长度的文件而不使用爬虫?我使用spark找到了下面的解决方案,但是有没有一种方法可以直接在Glue中做到这一点?Pyspark解析固定宽度文本文件

我使用AWS文档找到了解决方案。我们可以使用format="grokLog"

For示例:-对于具有以下结构

的文件abcdef1234

ghijkl4567

,柱结构长度分别为3,3,4。然后我们可以使用下面的代码逻辑:

from_options(connection_type='s3', connection_options={"paths": ["s3://mybucket/object_a"]}, format="grokLog", format_options={"logFormat":"(?<c1>.{3})(?<c2>.{3})(?<c3:int>.{4})"})

相关内容

  • 没有找到相关文章