使用BeautifulSoup循环浏览URL的csv

我正在利用BeautifulSoup在Python中抓取网站。

在URL具有合理的分页结构的地方，我已经成功地循环：

baseUrl = "https://www.example.com/inventory/page="
outputDataframe = list()
i = 1
for pageNumber in range(1, 10):
url = baseUrl + str(pageNumber)
print(url)
page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")

然而，我有一个csv的URL要刮，在页面内容中有统一的类和属性；然而，URL本身是唯一的，并且不遵循模式。

如何让BeautifulSoup有效地循环通过csv？

非常感谢。

到目前为止，我已经在使用循环的统一URL方面取得了成功。然而，我不知道如何导入/调用csv或唯一URL，然后执行相同的功能。

对于导入csv，我将使用pandas:

import pandas as pd 
df = pd.read_csv('URLs.csv', delimiter=',')

然后将数据帧列转换为列表(我假设它只有一列(：

urlList=list(df.iloc[:, 0])

然后简单地遍历列表：

for url in urlList:
page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")

相关内容

最新更新

热门标签：