使用 python ElementTree 过滤 xml/nessus 扫描



Python 初学者需要帮助过滤.xml文件。我一直在尝试使用xml.etree.ElementTree,但收效甚微。

该 xml 如下所示:

<ClientData>
  <Report>
    <ReportHost>
      <ReportItem pluginID="11111">
        Ipsum lorem etc leviosa!
      </ReportItem>
    </ReportHost>
    <ReportHost>
      <ReportItem pluginID="22222">
        Sed ut perspiciatis unde omnis iste
      </ReportItem>
    </ReportHost>
  </Report>
</ClientData>

如果ReportItem.pluginID与黑名单上的项目匹配,我想删除整个元素(ReportItem(及其子元素,然后编写过滤后的.xml。谢谢!

编辑 - 这是我到目前为止所拥有的,但我不确定如何让它与这种级别的嵌套一起工作:

from xml.etree.ElementTree import ElementTree
tree = ElementTree()
# Test input
tree.parse("test.xml")
for node in tree.findall('ReportItem'):
    if tag.attrib['pluginID']=='11111':
        tree.remove(node)
tree.write('test_out.xml')

我真的建议使用 lxml 模块。使用 Python 的 xml 模块时没有对父元素的引用。我认为你会更容易使用 lxml。

这就是我最终开发的内容。我发现它在过滤大于 600MB 或可能更小的文件时存在内存问题。从我所读到的内容来看,有一些方法可以比解析整个 xml 更好地处理内存,但我没有时间进行测试。

import lxml.etree as le
import os
from optparse import OptionParser, SUPPRESS_HELP
def removeVulns(filename, pluginlist):
    output_file = open("temp.xml","wb")
    with open(filename,'r') as f:
        doc=le.parse(f)
        for nessusID in open(pluginlist):
            for elem in doc.xpath('//*[attribute::pluginID]'):
                if elem.attrib['pluginID']==nessusID.strip('n'):
                    parent=elem.getparent()
                    parent.remove(elem)
        output_file.write(le.tostring(doc))
        f.close()
        output_file.close()
        os.remove(filename)
        os.rename('temp.xml', filename)

def main():
    parser = OptionParser(usage='%prog -f <filename>', 
                            version='%prog 1.0')   
    parser.add_option('-f',
                      dest='name',
                      type='string',
                      help='.nessus name')

    (options, args) = parser.parse_args()
    if not options.name:
        parser.error('Pop, you forgot name!')
    removeVulns(options.name, 'pluginlist.txt')
if __name__ == "__main__":
    main()