即使在设置了用户代理标头并使用了会话之后,Python请求也会返回403



我正在尝试抓取此网站:https://batdongsan.com.vn/ban-can-ho-chung-cu-king-palace.但请求无法访问该网站。

我在代码中添加了用户代理并使用了会话。这就是我所做的:

from bs4 import BeautifulSoup
import requests
headers={'User-Agent':'Mozilla/5.0    (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'}
"""step 2 get url"""
URL = "https://batdongsan.com.vn/ban-can-ho-chung-cu-king-palace"
session = requests.Session()
page = session.get(URL, headers=headers)
print(page.status_code)

结果如下:

403

我在另一个网站上尝试过同样的代码,https://homedy.com.我只是替换了URL,其他的都保持原样。运行代码给了我:

200

所以我的理解是,第一个网站有一些东西阻止了我的代码工作。但我不知道该怎么度过。如果有人能解决这个问题,我将不胜感激。非常感谢。

我认为您的webiste使用了一些高级的请求指纹。

你可以试着用这个答案。

最新更新