是否有一种简单的方法可以从HTML源中提取文本而不丢失结构(特别是换行符和空格)
目前,我提取文本如下:
page_title_element = driver.find_element_by_xpath("x-path")
page_title = page_title_element.text
但是,这种方法会扭曲文本的结构。
我正在使用Python和Selenium。
编辑:
我基本上试图从整个页面(HTML页面的完整文本数据)提取数据,而不是从单个标签。
您只需要访问元素的来源。这意味着将innerHTML信息与JavaScript不存在于python代码的情况下。
方法如下
page_title_element = driver.find_element_by_xpath("x-path")
page_title = page_title_element.source
你必须使用下面的代码。
data = driver.find_element_by_xpath("//html").get_attribute("innerHTML");