需要刮玻璃门公司的评论



我已经尝试过在所有库中使用漂亮的汤、硒、机械汤和西班牙凉菜对glassdoor公司的评论进行网络抓取。当我在本地运行它时,我能够抓取。但是,当我试图从我的AWS ec2实例运行时,我遇到了403禁止的错误。然而,我的期望是从服务器上运行代码。我有两个ec2实例,一个是linux,另一个是windows,两者都面临相同的错误

尝试此代码片段返回403 forbidden错误:

import urllib.request
user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'
url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"
request = urllib.request.Request(url)
request.add_header('User-Agent', user_agent)
response = urllib.request.urlopen(request)
with open('Output_new.txt', 'w', encoding='utf-8') as f:
print(response.read(), file=f)

在运行此代码时,我得到403试图添加更多的头

我也尝试过使用西班牙菜库获取方法

此处:

url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'
html = get(url)
soup = Soup(html)
print(soup)
with open('Output.txt', 'w', encoding='utf-8') as f:
print(soup, file=f)

在这里我也面临着同样的错误。

我错过了什么?

我发现Matthew创建的这个方法非常有用!我不得不对它进行一点调整以使其发挥作用(在main.py函数顶部链接到公司的登录页,我用公司评论的登录页替换了它(,然后在底部添加了一行,将我的结果保存为CSV。

最新更新