是否可以为拼花地板文件创建一个 grok 分类器?如果是这样,我在哪里可以找到示例?
我正在使用 AWS Glue Catalog,并且正在尝试在 Parquet 文件之上创建外部表。我希望分类器根据文件的其中一列拆分文件。
我的所有文件都有"表"列,文件中的所有记录都有相同的表。
我的 S3 结构是这样的
- s3://my-bucket/my-prefix/table1/...
- s3://my-bucket/my-prefix/table2/...
不,分类器不用于有条件地解析数据和移动到不同的表。
您可以编写 lambda/ecs/glue-job(取决于处理时间),它将获取这些文件并移动到 s3 存储桶中的表级文件夹,例如 s3-data-lake/ingestion/table1、s3-data-lake/ingestion/table2 等。然后,您可以在s3-data-lake/ingestion/上运行爬虫程序,这将创建所有粘附表。