应该使用什么HTTP响应代码来限制行为不良的网络爬虫:
- 403 禁止
- 503 服务不可用
是否应该在标题或正文中返回任何解释?
实际上,推荐的(RFC6585)http状态是429个请求太多。例如,它在Twitter REST API Rate Limiter上使用。
但是,如果您用请求淹没 GSA 服务,它将在内部返回 503 服务不可用,因此 IMO 可以安全地假设它也希望外部站点以相同的方式运行。
我在限制解决方案中使用了 503 服务不可用。