小贝子编程

从HTML中提取文本而不丢失其结构

是否有一种简单的方法可以从HTML源中提取文本而不丢失结构(特别是换行符和空格)

目前，我提取文本如下:

page_title_element = driver.find_element_by_xpath("x-path")
page_title = page_title_element.text

但是，这种方法会扭曲文本的结构。

我正在使用Python和Selenium。

编辑:

我基本上试图从整个页面(HTML页面的完整文本数据)提取数据，而不是从单个标签。

您只需要访问元素的来源。这意味着将innerHTML信息与JavaScript不存在于python代码的情况下。

方法如下

page_title_element = driver.find_element_by_xpath("x-path")
page_title = page_title_element.source

你必须使用下面的代码。

data = driver.find_element_by_xpath("//html").get_attribute("innerHTML");

相关内容