Scrapy 404 错误信息: 忽略响应 <404 http://www.mega.pk/laptop-hp>: HTTP 状态代码未处理或不允许



我正在尝试抓取网站,但是我不断收到404错误。这是我正在使用的代码: 我也在使用 Scrapy 版本 1.6。

# -*- coding: utf-8 -*-
import scrapy

class PracticeSpider(scrapy.Spider):
name = 'practice'
allowed_domains = ['www.mega.pk']
def start_requests(self):
yield scrapy.Request(url="https://www.mega.pk/laptop-hp", callback=self.parse, headers={
'User-Agent': "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36"
})
def parse(self, response):
products = response.xpath(
"//ul[contains(@class,'clearfix')]/li/div[@class='lap_thu_box']")
for product in products:
name = product.xpath(
".//ul[@class='detailer']/li[position()=1]/text()").get()
yield{
'name': name
}

您输入的网址不正确。您忘记了网址中的斜杠。在浏览器中输入 http://www.mega.pk/laptop-hp,它将为您提供404错误。添加斜杠并输入 http://www.mega.pk/laptop-hp/它应该可以工作。此外,使用最新版本的Scrapy 2.1.0也是明智的。

相关内容