网络抓取问题

我一直在尝试进行一些网络抓取。以下代码的主要思想是在网站中的serach输出中获取url。我一直有这个代码的问题：

import cloudscraper
from bs4 import BeautifulSoup
URL_WEB_URB = "https://adondevivir.com"
scraper = cloudscraper.create_scraper()
web = scraper.get("https://www.adondevivir.com/departamentos-en-alquiler-en-jesus-maria-ordenado-por-fechaonline-descendente-pagina-3.html")
depa_info = BeautifulSoup(web.text, "lxml")
publicaciones = depa_info.select(".postingCard")
pub_links = [URL_WEB_URB + ref["data-to-posting"] for ref in publicaciones]
print(pub_links)

我得到以下错误：

ProxyError:HTTPSConnectionPool(host='ww.adondevivir.com'，port=443

我已经将错误跟踪到行

web = scraper.get("https://www.adondevivir.com/departamentos-en-alquiler-en-jesus-maria-ordenado-por-fechaonline-descendente-pagina-3.html")

但我似乎无法修复它。我尝试过更改URL(https到http(，但不是这样。我一直在寻找答案，但没有找到关于这类代码的答案。

过了一段时间，我找到了一个解决方案。我必须给刮刀应用一个代理，以避免网络阻塞它

相关内容

最新更新

热门标签：