XPATH在提取全文和恢复原始句子顺序时排除内部标记


<p>abc</p> 
<p>c<strong>d</strong></p>

我尝试使用xpath提取p标记内的全文。我用了表达//div[@id='artibody']/p//text(),但是我无法恢复原来的句子顺序。结果是['abc', 'c', 'd']

这应该可以工作:string-join(//div[@id='artibody']/p//text(), "")

返回:abccd

//忽略子标记,string-join将结果连接起来。

如果你想添加一个joiner字符串,使用第二个参数:

string-join(//div[@id='artibody']/p//text(), "-")

返回:abc-c-d

最新更新