巨蟒3-如何在网络上抓取受密码保护的网站



我在工作中试图访问一个网站,但它有用户名/密码保护。user/pw弹出窗口也如图所示。登录图像我附上我的代码来查看网站。我可以看到HTML代码,但是有一个错误";401需要授权";。你能帮忙吗?

import requests
from bs4 import BeautifulSoup as bs
r = requests.get("http://10.75.19.101/mfgindex", auth=('root', 'password'))
# Convert to beautiful soup object
soup = bs(r.content, features="html.parser")
# print
print(soup.prettify())

一般来说,如果站点受密码保护,您显然无法绕过登录过程。这迫使您利用RPA流程,在该流程中,您的代码控制web浏览器,并利用真实登录和pwd执行登录操作,然后自动浏览所需页面,并使用BeautifulSoup从HTML中提取所需元素。

为此,我建议试试硒(https://www.selenium.dev/)

这里有一个简短的教程:

https://medium.com/ymedialabs-innovation/web-scraping-using-beautiful-soup-and-selenium-for-dynamic-page-2f8ad15efe25

我前段时间尝试过它来解决类似的任务,它的效果很好

最新更新