尝试循环浏览多个URL并从每个URL导入一些数据



我正试图破解通过几个URL循环并从每个URL获取几个数据点的代码。这是我的超级破解代码。

import requests
from bs4 import BeautifulSoup
base_url = "https://www.amazon.com/s?k=mountain+bikes&ref=nb_sb_noss_"
current_page = 1
while current_page < 5:
print(current_page)
url = base_url + str(current_page)
#current_page += 1
r = requests.get(url)
zute_soup = BeautifulSoup(r.text, 'html.parser')
firme = zute_soup.findAll('div', {'class': 'brand-follow-tooltip-root'})

title = []
desc = []
page = []
for title in firme:
title1 = title.findAll('h1')[0].text
print(title1)
adresa = title.findAll('div', {'class': 'brand-follow-tooltip-root'})[0].text
print(adresa)
print('n')
page_line = "{title1}n{adresa}".format(
title1=title1,
adresa=adresa
)

title.append(title1)
desc.append(adresa)
page.append(page_line)
current_page += 1  

代码在几秒钟内完成,我没有得到任何错误,但没有任何附加到任何列表中的内容。我认为这很接近,但我不知道这里的问题是什么。

对于每一次为null的迭代,这是预期的吗?

while current_page < 5:

.
.
.
title = []
desc = []
page = []
.
.
.
title.append(title1)
desc.append(adresa)
page.append(page_line)
current_page += 1  

移动

title = []
desc = []
page = []

out of while循环。而且你的附录不会被作废。

最新更新