网络抓取问题



我一直在尝试进行一些网络抓取。以下代码的主要思想是在网站中的serach输出中获取url。我一直有这个代码的问题:

import cloudscraper
from bs4 import BeautifulSoup
URL_WEB_URB = "https://adondevivir.com"
scraper = cloudscraper.create_scraper()
web = scraper.get("https://www.adondevivir.com/departamentos-en-alquiler-en-jesus-maria-ordenado-por-fechaonline-descendente-pagina-3.html")
depa_info = BeautifulSoup(web.text, "lxml")
publicaciones = depa_info.select(".postingCard")
pub_links = [URL_WEB_URB + ref["data-to-posting"] for ref in publicaciones]
print(pub_links)

我得到以下错误:

ProxyError:HTTPSConnectionPool(host='ww.adondevivir.com',port=443

我已经将错误跟踪到行

web = scraper.get("https://www.adondevivir.com/departamentos-en-alquiler-en-jesus-maria-ordenado-por-fechaonline-descendente-pagina-3.html")

但我似乎无法修复它。我尝试过更改URL(https到http(,但不是这样。我一直在寻找答案,但没有找到关于这类代码的答案。

过了一段时间,我找到了一个解决方案。我必须给刮刀应用一个代理,以避免网络阻塞它

最新更新