是否可以使用DynamicFrameReader from_options在AWS Glue中读取固定长度的文件而不使用爬虫?我使用spark找到了下面的解决方案,但是有没有一种方法可以直接在Glue中做到这一点?Pyspark解析固定宽度文本文件
我使用AWS文档找到了解决方案。我们可以使用format="grokLog"
For示例:-对于具有以下结构
的文件abcdef1234
ghijkl4567
,柱结构长度分别为3,3,4。然后我们可以使用下面的代码逻辑:
from_options(connection_type='s3', connection_options={"paths": ["s3://mybucket/object_a"]}, format="grokLog", format_options={"logFormat":"(?<c1>.{3})(?<c2>.{3})(?<c3:int>.{4})"})