我写了一个scratch spider来从一个有几个子页面的网页中抓取数据。它们中的每一个也有几个子页面等。我想访问所有的子页面-页面并从中获取特定信息。
为了越来越深入,我想用xpath((查询后续的子页面,以获取链接并输入它们。但是要使用xpath,我需要一个scrapy.http.response.html.HtmlResponse
类的对象。因此我写:
from scrapy.http import HtmlResponse
new_response = HtmlResponse(url=subpage_url)
但是,当我对这样一个对象执行xpath查询时,我没有得到应该得到的,只是一个空列表。我怀疑的是,我没有在HtmlResponse()
中指定"body"参数。但是正文隐藏在subpage_url
的HTML中,我想从子页面中获取它。我是不是做了一些不正确的事情,或者有什么更好的方法可以从具有已知URL的子页面获取HTML来xpath查询这个HTML?