使用lxml/xpath()从站点抓取文本时出现问题



快速一个。我是使用lxml的新手,花了很长时间试图从特定网站中抓取文本数据。元件结构如下所示:

http://tinypic.com/r/2iw7zaa/8

我想做的是提取突出显示区域中显示的100100。我尝试过的语句包括:

from lxml import html
tree = html.parse(test.txt)
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]')
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]/text()')

因此,我得到的似乎只是一张空单子,如有任何帮助,我将不胜感激。

ps我在展示我的尝试时,评论了这两个值语句。我尝试了一堆类似于上面的xpath语句,但由于python shell崩溃,它们都丢失了。

pps。很抱歉链接到图片-由于代表的原因,我不能直接发布图片。

尝试从xpath中删除'/tbody'。

浏览器可能正在添加"/tbody"标记,而它可能不会出现在原始HTML中。

点击此处阅读更多信息。

相关内容

  • 没有找到相关文章

最新更新