需要刮玻璃门公司的评论

我已经尝试过在所有库中使用漂亮的汤、硒、机械汤和西班牙凉菜对glassdoor公司的评论进行网络抓取。当我在本地运行它时，我能够抓取。但是，当我试图从我的AWS ec2实例运行时，我遇到了403禁止的错误。然而，我的期望是从服务器上运行代码。我有两个ec2实例，一个是linux，另一个是windows，两者都面临相同的错误

尝试此代码片段返回403 forbidden错误：

import urllib.request
user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'
url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"
request = urllib.request.Request(url)
request.add_header('User-Agent', user_agent)
response = urllib.request.urlopen(request)
with open('Output_new.txt', 'w', encoding='utf-8') as f:
print(response.read(), file=f)

在运行此代码时，我得到403试图添加更多的头

我也尝试过使用西班牙菜库获取方法

此处：

url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'
html = get(url)
soup = Soup(html)
print(soup)
with open('Output.txt', 'w', encoding='utf-8') as f:
print(soup, file=f)

在这里我也面临着同样的错误。

我错过了什么？

我发现Matthew创建的这个方法非常有用！我不得不对它进行一点调整以使其发挥作用(在main.py函数顶部链接到公司的登录页，我用公司评论的登录页替换了它(，然后在底部添加了一行，将我的结果保存为CSV。

相关内容

最新更新

热门标签：