Splinter或Selenium:我们可以在点击按钮后获得当前的html页面吗



我正在尝试爬网网站"http://everydayhealth.com"。但是,我发现页面会动态呈现。所以,当我点击"更多"按钮时,会显示一些新消息。然而,使用split点击按钮不会让"browser.html"自动更改为当前的html内容。有没有办法让它使用split或selenium获取最新的html源?我在split中的代码如下:

import requests
from bs4 import BeautifulSoup
from splinter import Browser
browser = Browser()
browser.visit('http://everydayhealth.com')
browser.click_link_by_text("More")
print(browser.html)

根据@Louis的回答,我将程序改写如下:

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
driver = webdriver.Firefox()
driver.get("http://www.everydayhealth.com")
more_xpath = '//a[@class="btn-more"]'
more_btn = WebDriverWait(driver, 10).until(lambda driver: driver.find_element_by_xpath(more_xpath))
more_btn.click()
more_news_xpath = '(//a[@href="http://www.everydayhealth.com/recipe-rehab/5-herbs-and-spices-to-intensify-flavor.aspx"])[2]'
WebDriverWait(driver, 5).until(lambda driver: driver.find_element_by_xpath(more_news_xpath))
print(driver.execute_script("return document.documentElement.outerHTML;"))
driver.quit()

然而,在输出文本中,我仍然无法在更新的页面中找到文本。例如,当我搜索"Milk是你的朋友还是敌人?"时,它仍然一无所获。怎么了?

使用Selenium,假设driver是初始化的WebDriver对象,这将为您提供与调用时DOM状态相对应的HTML:

driver.execute_script("return document.documentElement.outerHTML;")

返回值是一个字符串,因此您可以执行以下操作:

print(driver.execute_script("return document.documentElement.outerHTML;"))

当我在这样的任务中使用Selenium时,我知道browser.page_source确实会更新。

相关内容

  • 没有找到相关文章

最新更新