使用Scrapy登录经过验证的会话



我正在使用Scrapy在Python中编写一个web抓取项目。作为参考,我计划抓取的网站是https://umass.moonami.com/。

问题出在登录阶段。通常,当我使用浏览器登录时,它应该将我重定向到:https://login.microsoftonline.com/(发送SAML请求)。然而,在Scrapy中,我只能到达:https://webauth.umass.edu/idp/profile/SAML2/Redirect/SSO?execution=e1s1.

谁能帮我弄清楚这是为什么?非常感谢。

在大多数情况下,使用Scrapy或其他类似的库登录几乎是不可能的。(我对这种情况不确定)

所以我建议你使用无头浏览器,有两个著名的框架用于此目的:

操纵木偶的(我的建议)这是一个Nodejs库:https://github.com/puppeteer/puppeteer

: https://selenium-python.readthedocs.io/

他们会使你的工作更容易,但他们会消耗更多的资源。

最新更新