如何使用仅限 XPath 的正则表达式模式抓取无 ID 的网站元素



有几个类似的问题与在XPath搜索中使用正则表达式有关 - 但是,有些对我来说不是很有启发性,而另一些则对我的特定问题失败了。因此,对于可能遇到相同问题的未来用户,我发布了以下问题:

在 Python/Selenium 中使用一个调用,我希望能够一次抓取下面的所有元素(为了不进行代码格式化的可读性(:

/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**1**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**2**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**3**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**4**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**5**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**6**]/div/div[2]/div[1]

请注意,匹配元素的数量在目标网站之间是可变的(可以超过 6 个,但至少一个(,并且关联的元素没有分配特定的 ID(根据我的理解,这不包括 StackOverflow 上其他地方解释的许多解决方案(。

我正在寻找的是这样的:

website = driver.get(URL)
html = WebDriverWait(driver, 1).until(EC.presence_of_element_located((By.XPATH, "/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[[0-9]{1}]/div/div[2]/div[1]", regex = True)))

不起作用的是:

website = driver.get(URL)
html = WebDriverWait(driver, 1).until(EC.presence_of_element_located((By.XPATH, "/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[matchers['[0-9]{1}']]/div/div[2]/div[1]")))
TimeoutException: Message: 
Screenshot: available via screen

如何抓取所有没有 ID 的网站元素,其 XPath 与 Python + Selenium 中的正则表达式模式匹配?

你不想要一个正则表达式,你想要谓词[position()<=6]

最新更新