在 Python 中,HTML 表上的 XPath 查询总是返回空字符串



这是我尝试过的python代码:

from lxml import html
import requests

page = requests.get('http://www.rsssf.com/tablese/eng2017det.html')
tree = html.fromstring(page.content)
print(tree.xpath('/html/body/table/tbody/tr[2]//text()'))

我总是得到我的输出为 [] 我也检查了html页面,网址没有损坏

不要在 XPath 中使用tbody标签。请注意,开发者可能会跳过此标记,因此浏览器会在页面呈现时自动添加此标记。

只需尝试

print(tree.xpath('/html/body/table//tr[2]//text()'))

print([i for i in tree.xpath('/html/body/table//tr[2]//text()') if i.strip()])

避免打印换行符

最新更新