使用BeautifulSoup循环浏览URL的csv



我正在利用BeautifulSoup在Python中抓取网站。

在URL具有合理的分页结构的地方,我已经成功地循环:

baseUrl = "https://www.example.com/inventory/page="
outputDataframe = list()
i = 1
for pageNumber in range(1, 10):
url = baseUrl + str(pageNumber)
print(url)
page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")

然而,我有一个csv的URL要刮,在页面内容中有统一的类和属性;然而,URL本身是唯一的,并且不遵循模式。

如何让BeautifulSoup有效地循环通过csv?

非常感谢。

到目前为止,我已经在使用循环的统一URL方面取得了成功。然而,我不知道如何导入/调用csv或唯一URL,然后执行相同的功能。

对于导入csv,我将使用pandas:

import pandas as pd 
df = pd.read_csv('URLs.csv', delimiter=',')

然后将数据帧列转换为列表(我假设它只有一列(:

urlList=list(df.iloc[:, 0])

然后简单地遍历列表:

for url in urlList:
page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")

最新更新