使用Python删除2021年财富500强公司名单

我是python的新手，目前正在学习该语言。出于教育目的，我试图在网上浏览《财富》500强企业名单https://fortune.com/fortune500/2021/search用于我的分析

我有点被卡住了。我能够到达下面这么远，但结果是空的。有人能帮忙吗？感谢

我在谷歌colab中使用ipynb笔记本进行此练习。我正在尝试将表的内容打印到csv文件中。

from urllib.request import urlopen
from bs4 import BeautifulSoup
url = "https://fortune.com/fortune500/2021/search"
try:
page = urlopen(url)
except:
print("Error opening the URL")
# create a BeautifulSoup object for parsing
soup = BeautifulSoup(page, 'html.parser')
table_div = soup.find('div', {'class': 'rt-tbody'})

您不能使用beautifulsoup刮取站点。该表是使用JavaScript呈现的，因此该表不存在于页面的源html中。如果你想刮，你可以使用pyppeteer，首先渲染页面并获得html。

但是，数据可以在此url上找到
https://content.fortune.com/wp-json/irving/v1/data/franchise-search-results?list_id=3040727&token=Zm9ydHVuZTpCcHNyZmtNZCN5SendjWkkhNHFqMndEOTM=
它包含一个令牌，因此url可能在一段时间后不起作用，但您仍然可以打开DevTools，在XHR过滤的Network Tab上查找url。

相关内容

最新更新

热门标签：