LXML 在第一个嵌套标记处剪切文本



请看一下这个代码:

# -*- coding: utf-8 -*-
from lxml import etree
html_fragment = "<body><p>This is html, you can <a href='wikpedia'>learn more</a> on the wikipedia page</p></body>"
tree = etree.fromstring(html_fragment, etree.HTMLParser())
for x in tree.findall(".//p") :
print(x.text)

此打印 :

This is html, you can 

它剪切a标签之前的文本。 如何获取p标签的所有文本?

找到解决方案:必须使用.text_content((而不是.text

。LXML 官方文档

最新更新