在这里,我想抓取一个名为"fundsnetservices.com"的网站。具体来说,我想获取每个程序下面的文本——它大约相当于一段文字。
使用Google Chrome Inspect方法,我能够提取。。。
'/html/body/div[3]/div/div/div[1]/div/p[2]/text(('
作为xpath。但是,每次打印文本时,它都会返回[]。为什么会这样?
response = urllib.request.urlopen('http://www.fundsnetservices.com/searchresult/30/International-Grants-&-Funders/18.html')
tree = etree.HTML(response.read().decode('utf-16'))
text = tree.xpath('/html/body/div[3]/div/div/div[1]/div/p[2]/text()')
您的代码似乎返回了空白节点。使用更正XPath
//p[@class="tdclass"]/text()[3]