使用 AWS Glue 在单独的元素中解析具有列名称和值的 xml



嗨,我有大量来自外部源的XML文件,必须解析为数据库。 它们看起来像这样:

<root>
<object id="123">
<attributes>
<attribute>
<type>foo</type>
<value>bar</value>
</attribute>
<attribute>
<type>qwe</type>
<value>asd</value>
</attribute>
</attributes>
</object>
</root>

最明显的方法是使用"对象"作为分类器,但我不知道如何将属性映射到列及其值。我尝试的另一种方法是使用属性作为分类器,但比我离解决键值问题并没有多远,而且我错过了对象 Id。 我开始认为最好先在胶水之外将XML预先格式化为更可用的格式。

我看到一个aws-glue标签。看起来他们有一些处理XML的东西?:aws-glue-programming-etl-format

据此,"我开始认为最好先将 XML 预先格式化为胶水之外更可用的格式",也许转换为 json 会有所帮助?您可以在线找到许多工具。

最新更新