我在ChromeDriver中使用Python Selenium,所有这些都是最新的。我正在尝试点击";下一个";按钮,直到最后一页。
我试过了,但在几次页面点击后,脚本会中断或停止进一步点击。我做了一些编辑,丢失了部分工作代码。
这是html代码。
页面开头的html:
<div class="pagination" total="2098" limit="20" offset="1" view="products">
<ul>
<li class="disabled page">First
</li>
<li class="disabled page">Prev
</li>
<li key="1" class="pageLink digital current page">1
</li>
<li key="2" class="pageLink digital page">2
</li>
<li key="3" class="pageLink digital page">3
</li>
<li key="2" class="pageLink page">Next
</li>
<li key="105" class="pageLink page">Last
</li>
</ul>
</div>
html在最后一页:
<div class="pagination" total="6866" limit="20" offset="344" view="products"><ul><li key="1" class="pageLink page">First</li><li key="343" class="pageLink page">Prev</li><li key="342" class="pageLink digital page">342</li><li key="343" class="pageLink digital page">343</li><li key="344" class="pageLink digital current page">344</li><li class="disabled page">Next</li><li class="disabled page">Last</li></ul></div>
编辑:
我试过的Python代码。
while True:
next_page_btn = None
next_page_btn = browser.find_elements_by_xpath("/html[1]/body[1]/div[1]/div[2]/div[2]/div[6]/div[1]/div[1]/div[3]/div[1]/div[1]/ul[1]/li[6]")
if len(next_page_btn) < 1:
print("No more pages left")
break
else:
element = WebDriverWait(browser, 10).until(
EC.presence_of_element_located((By.xpath, "/html[1]/body[1]/div[1]/div[2]/div[2]/div[6]/div[1]/div[1]/div[3]/div[1]/div[1]/ul[1]/li[6]"))
)
element.click()
编辑2:下面的代码是我目前使用的,除了一个问题外,它运行良好。即使在最后一页之后,它也会不断地加载最后一页。当它到达终点时,我们该如何停止。
while True:
time.sleep(5)
#wait for pagination to show
EC.presence_of_element_located((By.XPATH, "//div[contains(@class, 'pagination')]"))
next_page_btn = browser.find_elements_by_xpath("//div[contains(@class, 'pagination')]//li[contains(text(), 'Next')]")
if len(next_page_btn) < 1:
print("No more pages left")
break
else:
WebDriverWait(browser, 10).until(EC.element_to_be_clickable((By.XPATH, "//li[.='Next']"))).click()
通常分页状态(页码(作为查询字符串存储在URL中,您可以简单地使用计数器并在URL中循环,而不必担心元素的目标是否正确
我会使用这个xpath来识别下一个按钮:
//div[contains(@class, 'pagination')]//li[contains(text(), 'Next')]
while True:
#wait for pagination to show
EC.presence_of_element_located((By.XPATH, "//div[contains(@class, 'pagination')]"))
)
next_page_btn = browser.find_elements_by_xpath("//div[contains(@class, 'pagination')]//li[contains(text(), 'Next')]")
if len(next_page_btn) < 1:
print("No more pages left")
break
else:
element.click()
或者你可以通过尝试捕获来简化:
while True:
EC.presence_of_element_located((By.XPATH, "//div[contains(@class, 'pagination')]"))
try:
driver.find_element_by_xpath("//div[contains(@class, 'pagination')]//li[contains(text(), 'Next')]").click()
except NoSuchElementException:
print("Element not found")
break
尝试使用"find_elements_by_link_text"而不是xpath
尝试此代码单击"下一步",直到没有页面离开
browser.get(URL)
while True:
... <scraping code>...
try:
WebDriverWait(browser, 10).until(EC.element_to_be_clickable((By.XPATH, "//li[.='Next']"))).click()
except:
print('No more pages to load')
break