仅抓取 http 标头数据



(如何)我可以存档,scrapy只下载网站的标题数据(用于检查目的等)

我试图禁用一些下载中间件,但它似乎不起作用。

就像@alexce说的,你可以发出 HEAD 请求而不是默认的 GET:

Request(url, method="HEAD")

更新:如果要对start_urls使用 HEAD 请求,则需要覆盖 make_requests_from_url 方法:

def make_requests_from_url(self, url):返回请求(url, method='HEAD', dont_filter=True)

更新:make_requests_from_url在Scrapy 2.6中删除。

最新更新