用Selenium解析动态加载的网页



我试图在Python中使用Selenium解析https://www.flashscore.com/football/albania/,但我的webdriver经常不等待分数完成加载。

代码如下:

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
driver = webdriver.Firefox()
driver.get("https://www.flashscore.com/football/albania/")
try:
WebDriverWait(driver, 100).until(
lambda s: s.execute_script("return jQuery.active == 0"))
print(driver.page_source)
finally:
driver.quit()
偶尔,这将打印出带有空白表的flashscore页面的源代码(即驱动程序不等待分数完成加载)。我怀疑这是因为页面上的一些实时比分是动态加载的。有什么办法可以改善我的等待条件吗?
  1. 有一个接受cookies的按钮,所以我们必须先点击它
  2. 我使用显式等待,first presence of table,然后它的主体可见性。

代码:

driver.maximize_window()
driver.implicitly_wait(30)
wait = WebDriverWait(driver, 30)
driver.get("https://www.flashscore.com/football/albania/")
wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "button#onetrust-accept-btn-handler"))).click()
try:
wait.until(EC.presence_of_element_located((By.ID, "live-table")))
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "section.event")))
print(driver.page_source)
finally:
driver.quit()

进口:

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

输出肯定很长,所以我可以把它贴在这里,因为stackoverflow不允许我这么做。

最新更新