小贝子编程

返回2个回调到没有HREF标记的垃圾URL

我目前正在使用CrawlSpider来查找任何链接，并因此跟踪它们。

为了在没有HREF标记(纯文本(的情况下抓取URL，我提取了它们，然后使用下面的代码段将它们添加回解析方法中。

return scrapy.Request(f'http://{url}')

这个方法的问题是基本URL没有被调用到我的另一个解析器方法中。example.com没有，example.com/example有。我曾尝试在代码中添加回调(callback=self.url_parser(，但默认的解析方法没有被调用，因此不会抓取和跟踪链接。

有没有一种方法可以将这些无href的链接传递到默认的解析方法中(以便跟踪链接(，但也可以由我的解析方法进行解析？

谢谢！

我最终将规则的回调更改为parse_start_url，一切都很顺利

相关内容