ElementTree 使用 AND 和 'parent' 搜索节点 (XPATH) 的更好方法

我需要找到与 2 个条件匹配的 tag=ITEM，然后根据此查找获取父 tag=NODE@name。

两个问题：

例如，我找不到让 XPath 做"和"的方法

item = node.findall('./ITEM[@name="toppas_type" and @value="output file list"]')

获取父节点信息，而无需在查找 ITEM 之前显式搜索和保存它，例如类似
```
parent_name = item.parent.attrib['name']
```

这是我现在拥有的代码：

node_names = []
for node in tree.findall('NODE[@name="vertices"]/NODE'): 
    for item in node.findall('./ITEM[@name="toppas_type"]'):
        if item.attrib['name'] == 'toppas_type' and item.attrib['value'] == 'output file list':
            node_names.append(node.attrib['name'])

。解析这样的文件（仅限代码片段）...

<?xml version="1.0" encoding="ISO-8859-1"?>
<PARAMETERS version="1.6.2" xsi:noNamespaceSchemaLocation="http://open-ms.sourceforge.net/schemas/Param_1_6_2.xsd" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <NODE name="vertices" description="">   
        <NODE name="23" description="">
          <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
          <ITEM name="toppas_type" value="tool" type="string" description="" required="false" advanced="false" />
          <ITEM name="tool_name" value="FileConverter" type="string" description="" required="false" advanced="false" />
          <ITEM name="tool_type" value="" type="string" description="" required="false" advanced="false" />
          <ITEM name="x_pos" value="-620" type="double" description="" required="false" advanced="false" />
          <ITEM name="y_pos" value="-1380" type="double" description="" required="false" advanced="false" />
        </NODE>
        <NODE name="24" description="">
          <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
          <ITEM name="toppas_type" value="output file list" type="string" description="" required="false" advanced="false" />
          <ITEM name="x_pos" value="-440" type="double" description="" required="false" advanced="false" />
          <ITEM name="y_pos" value="-1480" type="double" description="" required="false" advanced="false" />
          <ITEM name="output_folder_name" value="" type="string" description="" required="false" advanced="false" />
        </NODE>
        <NODE name="33" description="">
          <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
          <ITEM name="toppas_type" value="merger" type="string" description="" required="false" advanced="false" />
          <ITEM name="x_pos" value="-620" type="double" description="" required="false" advanced="false" />
          <ITEM name="y_pos" value="-1540" type="double" description="" required="false" advanced="false" />
          <ITEM name="round_based" value="false" type="string" description="" required="false" advanced="false" />
        </NODE>
    <!--(snip)-->
    </NODE>
</PARAMETERS>

更新：
@Mathias·穆勒

很好的建议 - 不幸的是，当我尝试加载XML文件时，出现错误。我不熟悉lxml...所以我不确定我是否正确使用它。

from lxml import etree
root = etree.DTD("/Users/mikes/Documents/Eclipseworkspace/Bioproximity/Assay-Workflows-Mikes/protein_lfq/protein_lfq-1.1.2.toppas")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "src/lxml/dtd.pxi", line 294, in lxml.etree.DTD.__init__ (src/lxml/lxml.etree.c:187024)
lxml.etree.DTDParseError: Content error in the external subset, line 2, column 1

不幸的是，ElementTree 不会在其 tree.find（xpath）或 tree.findall（xpath）中接受该 xpath。

也许你根本不需要嵌套循环，一个 XPath 表达式就足够了。我不确定您希望最终结果是什么，但这里有一个lxml的例子：

>>> import lxml.etree
>>> s = '''<NODE name="vertices" description="">
...
...     <NODE name="23" description="">
...       <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
...       <ITEM name="toppas_type" value="tool" type="string" description="" required="false" advanced="false" />
...       <ITEM name="tool_name" value="FileConverter" type="string" description="" required="false" advanced="false" />
...       <ITEM name="tool_type" value="" type="string" description="" required="false" advanced="false" />
...       <ITEM name="x_pos" value="-620" type="double" description="" required="false" advanced="false" />
...       <ITEM name="y_pos" value="-1380" type="double" description="" required="false" advanced="false" />
...     </NODE>
...
...     <NODE name="24" description="">
...       <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
...       <ITEM name="toppas_type" value="output file list" type="string" description="" required="false" advanced="false" />
...       <ITEM name="x_pos" value="-440" type="double" description="" required="false" advanced="false" />
...       <ITEM name="y_pos" value="-1480" type="double" description="" required="false" advanced="false" />
...       <ITEM name="output_folder_name" value="" type="string" description="" required="false" advanced="false" />
...     </NODE>
...
...     <NODE name="33" description="">
...       <ITEM name="recycle_output" value="false" type="string" description="" required="false" advanced="false" />
...       <ITEM name="toppas_type" value="merger" type="string" description="" required="false" advanced="false" />
...       <ITEM name="x_pos" value="-620" type="double" description="" required="false" advanced="false" />
...       <ITEM name="y_pos" value="-1540" type="double" description="" required="false" advanced="false" />
...       <ITEM name="round_based" value="false" type="string" description="" required="false" advanced="false" />
...     </NODE>
... <!--(snip)-->
... </NODE>'''
>>> root = lxml.etree.fromstring(s)
>>> root.xpath('/NODE[@name="vertices"]/NODE/ITEM[@name = "toppas_type" and @value = "output file list"]')
[<Element ITEM at 0x102b5f788>]

如果你确实需要父元素的名称，你可以用..移动到父节点：

>>> root.xpath('/NODE[@name="vertices"]/NODE/ITEM[@name = "toppas_type" and @value = "output file list"]/../@name')
['24']

从文件分析 XML 文档

如果要从文件中解析 XML 文档，则函数 etree.DTD 是错误的选择。DTD 不是 XML 文档。以下是您可以使用lxml进行操作的方法：

>>> import lxml.etree
>>> root = lxml.etree.parse("example.xml")
>>> root
<lxml.etree._ElementTree object at 0x106593b00>

第二次更新

如果最外面的元素是 PARAMETERS ，则需要像这样搜索：

>>> root.xpath('/PARAMETERS/NODE[@name="vertices"]/NODE/ITEM[@name = "toppas_type" and @value = "output file list"]')
[<Element ITEM at 0x106593e18>]

在 XPath 中，[]中的所有内容都是谓词（筛选条件），不限于属性筛选。

在没有任何条件的情况下，XPath 表达式：

//NODE/@name

将生成所有NODE节点的所有name属性值。

在您的情况下，您只关心具有特定子节点的NODE节点。因此，这意味着您必须过滤NODE节点：

//NODE[‹predicate here›]/@name

具体来说，对于具有item节点的NODE节点，其标准与您问题 No1 相同，谓词将是：

ITEM[@name="toppas_type" and @value="output file list"]

即，将直接ITEM子项与其name和value属性的特定值相匹配。

然后，完整的XPath将是：

//NODE[ITEM[@name="toppas_type" and @value="output file list"]]/@name

将其lxml应用于 Python REPL 中的示例 XML：

>>> doc.xpath('//NODE[ITEM[@name="toppas_type" and @value="output file list"]]/@name')
['24']

相关内容

最新更新

热门标签：