Python XML按属性/子级排序

我正在使用Python(2.7/3.8(，并处理一些复杂的XML，这些XML可以一起进行比较。XML的顺序可能不同，我正在构建一个函数，作为排序规则(查看节点属性，然后查看节点子级(。

我已经研究了一些不同的相关问题，但它们都不适用于我的场景：

Python通过和递归地标记和属性对XML元素进行排序
使用python按标记对xml进行排序

我可以使用key=lambda child: child.tag进行排序，但我通常希望使用属性而不是标记名。

在最基本的情况下，我希望能够按属性名称进行排序，检查["id"、"label"、"value"]中是否有任何一个作为属性存在，并将其用作键。不管怎样，我似乎不明白为什么child.tag可以进行排序，而child.get('id'(却不行。

import xml.etree.ElementTree as etree

input = '''
<root>
<node id="7"></node>
<node id="10"></node>
<node id="5"></node>
</root>
'''
root = etree.fromstring(input)
root[:] = sorted(root, key=lambda child: child.get('id'))
xmlstr = etree.tostring(root, encoding="utf-8", method="xml")
print(xmlstr.decode("utf-8"))

哪个返回：

<root>
<node id="7" />
<node id="5" />
<node id="10" />
</root>

预期：

<root>
<node id="5" />
<node id="7" />
<node id="10" />
</root>

编辑

正如deadshot所提到的，用int((包装child.get('id'(确实解决了这个问题，但是代码必须额外处理同时具有字母+数字的输入，例如id="节点1"节点15"；，等

例如：

<root>
<node id="node10" />
<node id="node7" />
<node id="node5" />
</root>

预期：

<root>
<node id="node5" />
<node id="node7" />
<node id="node10" />
</root>

您应该将id值转换为int，然后您可以使用regex从id中提取didgit

import re

root[:] = sorted(root, key=lambda child: int(re.search('d+', child.get('id')).group()))
xmlstr = etree.tostring(root, encoding="utf-8", method="xml")
print(xmlstr.decode("utf-8"))

输出：

<root>
<node id="node5" />
<node id="node7" />
<node id="node10" />
</root>

为了进一步构建deadshot的方法，我使用下面的split_key函数，我取一个任意时间的字符串(test，test123123(，并将其作为元组拆分到string/int部分，以便于按排序方法进行排序。

def split_key(key):
regex = re.compile(r'^(?P<letters>.*?)(?P<numbers>d*)$')
letters = regex.search(key).group('letters') or ''
numbers = regex.search(key).group('numbers') or 0
return (letters, int(numbers))

相关内容

最新更新

热门标签：