如何使用lxml从xpath获取所有文本



我目前有以下

u = 'https://www.cruiseplum.com/search#{%22numPax%22:2,%22geo%22:%22US%22,%22portsMatchAll%22:true,%22numOptionsShown%22:100,%22ppdIncludesTaxTips%22:true,%22uiVersion%22:%22split%22,%22sortTableByField%22:%22dd%22,%22sortTableOrderDesc%22:false,%22filter%22:null}'
driver = webdriver.Chrome()
driver.get(u)
driver.maximize_window()
time.sleep(.3)
driver.find_element_by_id('restoreSettingsYesEncl').click() # select 'yes' on the webpage to restore settings
time.sleep(7) # wait until the website downloads data so we get a return value
elem = driver.find_element_by_xpath("//*")
source_code = elem.get_attribute("innerHTML")
t = html.fromstring(source_code)    
for i in t.xpath('//td[@class="dc-table-column _2"]/text()'):
print(i.strip())

这样做的目的是从代码中列出的网页中获取文本。我遇到的问题是,"路由"列中是否列出了两个端口。我目前拥有的代码将打印在两行上。

以下是我遇到问题的示例html:

<td class="dc-table-column _2">Fort Lauderdale <i class="fa fa-long-arrow-right"></i> Venice</td>

例如,它将在第1行打印"劳德代尔堡",然后在第2行打印"威尼斯"。我希望能够把它们都打印在一行上。

正如AMC在评论中指出的那样,这只是打印结果方式的结果。

print()为它打印的每个字符串添加一个换行符。

替代打印方法

results = t.xpath('//td[@class="dc-table-column _2"]/text()')
print(" ".join([r.strip() for r in results]))

输出

Barcelona Martinique Martinique Doha Doha Fort Lauderdale Venice Miami Miami Miami Miami [...]

最新更新