我想在蜘蛛中禁用深度检查和迭代,或者在爬行时更改深度极限。这是我的一些代码:
def start_requests(self):
if isinstance(self.vuln, context.GenericVulnerability):
yield Request(
self.vuln.base_url,
callback=self.determine_aliases,
meta=self._normal_meta,
)
else:
for url in self.vuln.entrypoint_urls:
yield Request(
url, callback=self.parse, meta=self._patch_find_meta
)
@inline_requests
def determine_aliases(self, response):
vulns = [self.vuln]
processed_vulns = set()
while vulns:
vuln = vulns.pop()
if vuln.vuln_id is not self.vuln.vuln_id:
response = yield Request(vuln.base_url)
processed_vulns.add(vuln.vuln_id)
aliases = context.create_vulns(*list(self.parse(response)))
for alias in aliases:
if alias.vuln_id in processed_vulns:
continue
if isinstance(alias, context.GenericVulnerability):
vulns.append(alias)
else:
logger.info("Alias discovered: %s", alias.vuln_id)
self.cves.add(alias)
yield from self._generate_requests_for_vulns()
def _generate_requests_for_vulns(self):
for vuln in self.cves:
for url in vuln.entrypoint_urls:
yield Request(
url, callback=self.parse, meta=self._patch_find_meta
)
我的程序使用户可以提供所需/想要的深度限制作为输入。在某些情况下,我的默认解析方法允许递归爬行链接。
确定_ALIASES是一种预处理方法,从_generate_requests_for_vulns生成的请求是用于实际解决方案的。
如您所见,我从响应中刮擦所需的数据,并将其存储在set属性" cves"中的spider类中。完成此操作后,我会从_generate_requests_for_vulns。
这里的问题是,要么从确定_ALIASES产生请求,要么将Desik_aliases调用作为回调会迭代深度。因此,当我从_generate_requests_for_vulns提出请求以进一步爬行时,我的深度极限就会比预期的要早。
请注意,实际的爬行解决方案始于_generate_requests_for_vulns生成的请求,因此只能从这些请求中应用给定的深度限制。
我最终通过创建中间件将深度重置为0来解决。参数。
class DepthResetMiddleware(object):
def process_spider_output(self, response, result, spider):
for r in result:
if not isinstance(r, Request):
yield r
continue
if (
"depth" in r.meta
and "reset_depth" in r.meta
and r.meta["reset_depth"]
):
r.meta["depth"] = 0
yield r
应该以这种方式从蜘蛛中得出请求:
yield Request(url, meta={"reset_depth": True})
然后将中间件添加到您的设置中。订单很重要,因为该中间件应在Depthmiddleware之前执行。由于默认的depthmiddleware订单为900,因此我将Depthresetmiddleware的订单设置为850在我的crawlerprocess中,例如:
"SPIDER_MIDDLEWARES": {
"patchfinder.middlewares.DepthResetMiddleware": 850
}
不知道这是否是最好的解决方案,但它有效。另一个选项可能是扩展Depthmiddleware并在此处添加此功能。