返回2个回调到没有HREF标记的垃圾URL



我目前正在使用CrawlSpider来查找任何链接,并因此跟踪它们。

为了在没有HREF标记(纯文本(的情况下抓取URL,我提取了它们,然后使用下面的代码段将它们添加回解析方法中。

return scrapy.Request(f'http://{url}')

这个方法的问题是基本URL没有被调用到我的另一个解析器方法中。example.com没有,example.com/example有。我曾尝试在代码中添加回调(callback=self.url_parser(,但默认的解析方法没有被调用,因此不会抓取和跟踪链接。

有没有一种方法可以将这些无href的链接传递到默认的解析方法中(以便跟踪链接(,但也可以由我的解析方法进行解析?

谢谢!

我最终将规则的回调更改为parse_start_url,一切都很顺利

最新更新