如何保持所有的html元素与选择器,但放弃所有其他?



我想得到一个没有某些元素的HTML字符串。但是,我只知道保留哪些元素,而不知道删除哪些元素。

假设我只想将所有pa标签保留在divclass="A"中。

输入:

<div class="A">
<p>Text1</p>
<img src="A.jpg">
<div class="sub1">
<p>Subtext1</p>
</div>
<p>Text2</p>
<a href="url">link text</a>
</div>
<div class="B">
ContentDiv2
</div>

预期输出:

<div class="A">
<p>Text1</p>
<p>Text2</p>
<a href="url">link text</a>
</div>

如果我知道所有其他元素的选择器,我可以只使用lxmldrop_tree()。但问题是我事先不知道['img', 'div.sub1', 'div.B']

drop_tree():

示例
import lxml.cssselect
import lxml.html
tree = lxml.html.fromstring(html_str)
elements_drop = ['img', 'div.sub1', 'div.B']
for j in elements_drop:
selector = lxml.cssselect.CSSSelector(j)
for e in selector(tree):
e.drop_tree()
output = lxml.html.tostring(tree)

我仍然不完全确定我理解正确,但似乎你可能正在寻找类似的东西:

target = tree.xpath('//div[@class="A"]')[0]
to_keep = target.xpath('//p | //a')
for t in target.xpath('.//*'):
if t not in to_keep:
target.remove(t) #I believe this method is better here than drop_tree()
print(lxml.html.tostring(target).decode())

我得到的输出是你期望的输出。

尝试以下操作。其思想是清理根并添加所需的子元素。

注意不需要外部库

import xml.etree.ElementTree as ET
html = '''<div class="A">
<p>Text1</p>
<img src="A.jpg"/>
<div class="sub1">
<p>Subtext1</p>
</div>
<p>Text2</p>
<a href="url">link text</a>
ContentDiv2
</div>'''
root = ET.fromstring(html)
p_lst = root.findall('./p')
a_lst = root.findall('./a')
children = list(root)
for c in children:
root.remove(c)
for p in p_lst:
p.tail = ''
root.append(p)
for a in a_lst:
a.tail = ''
root.append(a)
root.text = ''
ET.dump(root)

输出
<?xml version="1.0" encoding="UTF-8"?>
<div class="A">
<p>Text1</p>
<p>Text2</p>
<a href="url">link text</a>
</div>

相关内容

最新更新