用于镶木地板的格罗克分类器



是否可以为拼花地板文件创建一个 grok 分类器?如果是这样,我在哪里可以找到示例?

我正在使用 AWS Glue Catalog,并且正在尝试在 Parquet 文件之上创建外部表。我希望分类器根据文件的其中一列拆分文件。

我的所有文件都有"表"列,文件中的所有记录都有相同的表。

我的 S3 结构是这样的

- s3://my-bucket/my-prefix/table1/...
- s3://my-bucket/my-prefix/table2/...

不,分类器不用于有条件地解析数据和移动到不同的表。

您可以编写 lambda/ecs/glue-job(取决于处理时间),它将获取这些文件并移动到 s3 存储桶中的表级文件夹,例如 s3-data-lake/ingestion/table1、s3-data-lake/ingestion/table2 等。然后,您可以在s3-data-lake/ingestion/上运行爬虫程序,这将创建所有粘附表。

相关内容

  • 没有找到相关文章

最新更新