工作 蒸馏网络机器人检测.



我正在尝试使用python中的Scrapy框架抓取网站。但是我得到了验证码。服务器使用 Distil netwrok 机器人检测实现机器人检测。无论如何我可以用它解决吗?

我个人把它淹没在代理中。 1 个代理在阻止之前为 4 个请求,然后我更改代理。我有数万个免费代理,所以这不是一个大问题。但它不是很快,所以我将并发设置为 1k 或大约。

你可以通过使用Selenium等工具克服它。它是一个Web测试框架,可自动加载Web浏览器以模仿普通用户。页面加载后,您可以使用 Scrapy 或 Bs4 等工具抓取内容。 继续加载下一页,然后抓取。它比普通刮刀慢,但它可以完成这项工作,并通过大多数探测器,如Incapsula。

希望有帮助。

最新更新