While语句继续循环,即使它在技术上是不可能的



我正在编写一个Selenium Python脚本,该脚本应该从所有页面中抓取所有超链接,并使用"next"按钮,它点击。这成功地抓取了所有的链接,但当它到达最后一页,也就是"下一页"时,button元素应该不再存在,它会在最后一页上循环,并不断地将收集到的数据一次又一次地写入CSV文件,直到永远。

根据我对while和try/except语句的设置的理解,这在技术上不应该是可能的。我花了好几个小时摆弄代码,头发都掉光了,但我还是没能修好它。

这是我试图从中抓取信息的网站:https://www.sreality.cz/adresar

你可以看到有红色的公司名称和"下一个"底部的箭头按钮。这是我的代码,应该抓取所有的链接:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import WebDriverException, TimeoutException
from platform import system
from os import getcwd, getlogin
import csv
wait = WebDriverWait(driver, 10)
with open('links.csv', 'w+', newline='') as write:
driver.get("https://www.sreality.cz/adresar")
writer = csv.writer(write)
page_spawn = 0
while page_spawn == 0:
try:
links = wait.until(ec.presence_of_all_elements_located((By.CSS_SELECTOR, "h2.title > a")))
#print(len(links))
for link in links:
print(link.get_attribute("href"))
writer.writerow([link.get_attribute("href")])
wait.until(ec.element_to_be_clickable((By.CSS_SELECTOR, "a.btn-paging-pn.icof.icon-arr-right.paging-next"))).click()
except TimeoutException:
page_spawn = 1
break

箭头按钮元素在最后一页仍然存在,但被禁用:

>> window.location
Location https://www.sreality.cz/adresar?strana=152
>> document.querySelector("a.btn-paging-pn.icof.icon-arr-right.paging-next")
<a class="btn-paging-pn icof icon-…ht paging-next disabled" ng-href="" ng-class="{disabled: !pagingData.nextUrl}">

在元素上调用click()方法什么也不做。

如果被禁用的元素具有disabled类值,则在该选择器的末尾添加:not(.disabled)将阻止它匹配被禁用的元素:

>> window.location
Location https://www.sreality.cz/adresar?strana=152
>> document.querySelector("a.btn-paging-pn.icof.icon-arr-right.paging-next:not(.disabled)")
null

同时仍然匹配未禁用的元素:

>> window.location
Location https://www.sreality.cz/adresar?strana=151
>> document.querySelector("a.btn-paging-pn.icof.icon-arr-right.paging-next:not(.disabled)")
<a class="btn-paging-pn icof icon-arr-right paging-next" ng-href="/adresar?strana=152" ng-class="{disabled: !pagingData.nextUrl}" href="/adresar?strana=152">

您没有在try块中更改page_spawn的值,这可能是循环n次的原因。

最新更新