我想抓取由无限滚动实现的页面的所有数据。以下 python 代码有效。
for i in range(100):
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(5)
这意味着每次向下滚动到底部时,我都需要等待 5 秒钟,这通常足以让页面完成加载新生成的内容。但是,这可能没有时间效率。页面可能会在 5 秒内完成新内容的加载。如何检测页面是否在每次向下滚动时都完成了新内容的加载?如果我能检测到这一点,我可以在知道页面完成加载后再次向下滚动以查看更多内容。这更省时。
webdriver
将等待页面通过.get()
方法加载。
正如@user227215所说,您可能正在寻找一些特定的元素,因此您应该使用 WebDriverWait
来等待位于页面中的元素:
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
browser = webdriver.Firefox()
browser.get("url")
delay = 3 # seconds
try:
myElem = WebDriverWait(browser, delay).until(EC.presence_of_element_located((By.ID, 'IdOfMyElement')))
print "Page is ready!"
except TimeoutException:
print "Loading took too much time!"
我已经用它来检查警报。您可以使用任何其他类型方法来查找定位器。
编辑 1:
我应该提到,默认情况下,webdriver
将等待页面加载。它不会等待帧内加载或 ajax 请求。这意味着当您使用 .get('url')
时,您的浏览器将等到页面完全加载,然后转到代码中的下一个命令。但是,当您发布 ajax 请求时,webdriver
不会等待,您有责任等待适当的时间加载页面或页面的一部分;所以有一个名为 expected_conditions
的模块。
find_element_by_id
传递给构造函数以进行presence_of_element_located
(如接受的答案所示(会导致引发NoSuchElementException
。我不得不在 fragles 的评论中使用语法:
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
driver = webdriver.Firefox()
driver.get('url')
timeout = 5
try:
element_present = EC.presence_of_element_located((By.ID, 'element_id'))
WebDriverWait(driver, timeout).until(element_present)
except TimeoutException:
print "Timed out waiting for page to load"
这与文档中的示例匹配。下面是指向 By 文档的链接。
找到以下 3 种方法:
就绪状态
正在检查页面就绪状态(不可靠(:
def page_has_loaded(self):
self.log.info("Checking if {} page is loaded.".format(self.driver.current_url))
page_state = self.driver.execute_script('return document.readyState;')
return page_state == 'complete'
wait_for
辅助函数很好,但不幸的是,click_through_to_new_page
对竞争条件开放,在浏览器开始处理点击之前,我们设法在旧页面中执行脚本,page_has_loaded
只是立即返回 true。
id
将新页面 ID 与旧页面 ID 进行比较:
def page_has_loaded_id(self):
self.log.info("Checking if {} page is loaded.".format(self.driver.current_url))
try:
new_page = browser.find_element_by_tag_name('html')
return new_page.id != old_page.id
except NoSuchElementException:
return False
比较 id 可能不如等待过时的引用异常有效。
staleness_of
使用staleness_of
方法:
@contextlib.contextmanager
def wait_for_page_load(self, timeout=10):
self.log.debug("Waiting for page to load at {}.".format(self.driver.current_url))
old_page = self.find_element_by_tag_name('html')
yield
WebDriverWait(self, timeout).until(staleness_of(old_page))
有关更多详细信息,请查看哈利的博客。
正如David Cullen的回答中提到的,我总是看到建议使用如下行:
element_present = EC.presence_of_element_located((By.ID, 'element_id'))
WebDriverWait(driver, timeout).until(element_present)
我很难在某处找到可以与By
一起使用的所有可能的定位器,因此我认为在此处提供列表会很有用。根据Ryan Mitchell的Web Scraping with Python:
ID
在示例中使用;按元素的 HTML id 属性查找元素
CLASS_NAME
用于按元素的 HTML 类属性查找元素。这是为什么 功能
CLASS_NAME
不是简单的CLASS
?使用表单object.CLASS
会给Selenium的Java库带来问题,其中.class
是一个 保留方法。为了保持硒语法一致 在不同的语言之间,改用CLASS_NAME
。
CSS_SELECTOR
按元素的类、ID 或标记名称查找元素,使用
#idName
,.className
,tagName
惯例。
LINK_TEXT
按 HTML 标记包含的文本查找它们。例如,一个链接 说"下一步"可以使用
(By.LINK_TEXT, "Next")
选择。
PARTIAL_LINK_TEXT
与
LINK_TEXT
类似,但在部分字符串上匹配。
NAME
按名称属性查找 HTML 标记。这对于 HTML 表单很方便。
TAG_NAME
按标记名称查找 HTML 标记。
XPATH
使用 XPath 表达式...以选择匹配的元素。
From selenium/webdriver/support/wait.py
driver = ...
from selenium.webdriver.support.wait import WebDriverWait
element = WebDriverWait(driver, 10).until(
lambda x: x.find_element_by_id("someId"))
你试过driver.implicitly_wait
吗?它就像驱动程序的设置,因此您只在会话中调用它一次,它基本上告诉驱动程序等待给定的时间量,直到每个命令都可以执行。
driver = webdriver.Chrome()
driver.implicitly_wait(10)
因此,如果您将等待时间设置为 10 秒,它将尽快执行命令,等待 10 秒后才会放弃。我已经在类似的向下滚动场景中使用了它,所以我不明白为什么它在你的情况下不起作用。希望这是有帮助的。
为了能够修复这个答案,我必须添加新文本。请务必在 implicitly_wait
中使用小写的"w"。
在这里,我使用了一个相当简单的形式:
from selenium import webdriver
browser = webdriver.Firefox()
browser.get("url")
searchTxt=''
while not searchTxt:
try:
searchTxt=browser.find_element_by_name('NAME OF ELEMENT')
searchTxt.send_keys("USERNAME")
except:continue
连续加载数据的 ajax 页面的解决方案。所述的预览方法不起作用。相反,我们可以做的是抓取页面 dom 并对其进行哈希处理,并在增量时间内一起比较新旧哈希值。
import time
from selenium import webdriver
def page_has_loaded(driver, sleep_time = 2):
'''
Waits for page to completely load by comparing current page hash values.
'''
def get_page_hash(driver):
'''
Returns html dom hash
'''
# can find element by either 'html' tag or by the html 'root' id
dom = driver.find_element_by_tag_name('html').get_attribute('innerHTML')
# dom = driver.find_element_by_id('root').get_attribute('innerHTML')
dom_hash = hash(dom.encode('utf-8'))
return dom_hash
page_hash = 'empty'
page_hash_new = ''
# comparing old and new page DOM hash together to verify the page is fully loaded
while page_hash != page_hash_new:
page_hash = get_page_hash(driver)
time.sleep(sleep_time)
page_hash_new = get_page_hash(driver)
print('<page_has_loaded> - page not loaded')
print('<page_has_loaded> - page loaded: {}'.format(driver.current_url))
<</div>
div class="one_answers"> 如何将WebDriverWait放入While循环并捕获异常。
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
browser = webdriver.Firefox()
browser.get("url")
delay = 3 # seconds
while True:
try:
WebDriverWait(browser, delay).until(EC.presence_of_element_located(browser.find_element_by_id('IdOfMyElement')))
print "Page is ready!"
break # it will break from the loop once the specific element will be present.
except TimeoutException:
print "Loading took too much time!-Try again"
你可以通过这个函数非常简单地做到这一点:
def page_is_loading(driver):
while True:
x = driver.execute_script("return document.readyState")
if x == "complete":
return True
else:
yield False
当您想在页面加载完成后执行某些操作时,可以使用:
Driver = webdriver.Firefox(options=Options, executable_path='geckodriver.exe')
Driver.get("https://www.google.com/")
while not page_is_loading(Driver):
continue
Driver.execute_script("alert('page is loaded')")
代码中使用它:
from selenium import webdriver
driver = webdriver.Firefox() # or Chrome()
driver.implicitly_wait(10) # seconds
driver.get("http://www.......")
或者,如果您正在寻找特定的标签,则可以使用此代码:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Firefox() #or Chrome()
driver.get("http://www.......")
try:
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, "tag_id"))
)
finally:
driver.quit()
Selenium 无法检测页面何时完全加载,但 JavaScript 可以。我建议你试试这个。
from selenium.webdriver.support.ui import WebDriverWait
WebDriverWait(driver, 100).until(lambda driver: driver.execute_script('return document.readyState') == 'complete')
这将执行JavaScript代码而不是使用Python,因为JavaScript可以检测页面何时完全加载,它将显示"完成"。此代码表示在 100 秒内,继续尝试 document.readyState,直到完成显示。
这里有很好的答案。等待XPATH
的快速示例。
# wait for sizes to load - 2s timeout
try:
WebDriverWait(driver, 2).until(expected_conditions.presence_of_element_located(
(By.XPATH, "//div[@id='stockSizes']//a")))
except TimeoutException:
pass
我有点努力让它工作,因为这并没有像预期的那样对我有用。 任何仍在努力使其工作的人都可以检查一下。
我想等待网页上出现一个元素,然后再继续我的操作。
我们可以使用 WebDriverWait(driver, 10, 1(.until((,但捕获是 until(( 期望一个函数,它可以每 1 秒执行一段时间(在我们的例子中是 10(的超时,所以保持它像下面这样对我有用。
element_found = wait_for_element.until(lambda x: x.find_element_by_class_name("MY_ELEMENT_CLASS_NAME").is_displayed())
这是直到((在幕后做的事情
def until(self, method, message=''):
"""Calls the method provided with the driver as an argument until the
return value is not False."""
screen = None
stacktrace = None
end_time = time.time() + self._timeout
while True:
try:
value = method(self._driver)
if value:
return value
except self._ignored_exceptions as exc:
screen = getattr(exc, 'screen', None)
stacktrace = getattr(exc, 'stacktrace', None)
time.sleep(self._poll)
if time.time() > end_time:
break
raise TimeoutException(message, screen, stacktrace)
尝试滚动并查找页面上的所有项目。您可以考虑使用以下方法。这是其他人在这里提到的几种方法的组合。它为我完成了这项工作:
while True:
try:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
driver.implicitly_wait(30)
time.sleep(4)
elem1 = WebDriverWait(driver, 30).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "element-name")))
len_elem_1 = len(elem1)
print(f"A list Length {len_elem_1}")
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
driver.implicitly_wait(30)
time.sleep(4)
elem2 = WebDriverWait(driver, 30).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "element-name")))
len_elem_2 = len(elem2)
print(f"B list Length {len_elem_2}")
if len_elem_1 == len_elem_2:
print(f"final length = {len_elem_1}")
break
except TimeoutException:
print("Loading took too much time!")
nono = driver.current_url
driver.find_element(By.XPATH,"//button[@value='Send']").click()
while driver.current_url == nono:
pass
print("page loaded.")