我有这个代码读取链接(url)从一个网页,并打印在屏幕上。
connection = urllib.urlopen("http://www.google.com")
dom = lxml.html.fromstring(connection.read())
for link in dom.xpath('//a/@href'):
print link
很好。
现在我想做完全相同的事情,但在url的地方,从锚标记a
我想得到图像的url是在src
下的img
的HTML标签。我不明白这个dom.xpath('//a/@href')
是如何工作的。如果有人能解释一下,或者只是给我一个教程,那就太好了。
欢呼
有关xpath的开始,请查看http: wiki/xpath或有关USING xpath的更多信息。
//a/@href'
从所有链接(<a>
标签)中选择href属性。
对于所有图像src属性,这将是//img/@src
。