巨蟒3-如何在网络上抓取受密码保护的网站

我在工作中试图访问一个网站，但它有用户名/密码保护。user/pw弹出窗口也如图所示。登录图像我附上我的代码来查看网站。我可以看到HTML代码，但是有一个错误"；401需要授权"；。你能帮忙吗？

import requests
from bs4 import BeautifulSoup as bs
r = requests.get("http://10.75.19.101/mfgindex", auth=('root', 'password'))
# Convert to beautiful soup object
soup = bs(r.content, features="html.parser")
# print
print(soup.prettify())

一般来说，如果站点受密码保护，您显然无法绕过登录过程。这迫使您利用RPA流程，在该流程中，您的代码控制web浏览器，并利用真实登录和pwd执行登录操作，然后自动浏览所需页面，并使用BeautifulSoup从HTML中提取所需元素。

为此，我建议试试硒(https://www.selenium.dev/)

这里有一个简短的教程：

https://medium.com/ymedialabs-innovation/web-scraping-using-beautiful-soup-and-selenium-for-dynamic-page-2f8ad15efe25

我前段时间尝试过它来解决类似的任务，它的效果很好

相关内容

最新更新

热门标签：