风暴爬虫 :通过基本身份验证从单独的链接生成 cookie,并使用 cookie 对种子中的链接进行爬网.txt



我要抓取的网站已通过第三方基本身份验证启用了身份验证。例如,需要抓取的网址是 https://intranet.crawl.com 网址首先被重定向到另一个页面:http://auth.intranet.com,允许基本身份验证,在传递有效的用户名和密码时,它使用cookie登录到 https://intranet.crawl.com

如何在风暴爬虫中实现上述身份验证?

一种选择是使用 Selenium 并具有自定义导航过滤器来填充重定向 URL 上的凭据,请参阅教程。

您还可以在抓取之前在外部生成 Cookie,并使用密钥 set-cookie 在种子元数据中指定它。您需要将该密钥添加到conf 中的 metadata.transfer,以便将其传输到外链并保存到存储中。

相关内容

最新更新