删除指定节点后的所有节点

  • 本文关键字:节点 删除 ruby nokogiri
  • 更新时间 :
  • 英文 :


我从一个url抓取文本的div,并想删除下面的一切有一个backtotop类的段落。我在stackoverflow上看到了一个遍历代码片段,看起来很有希望,但我不知道如何将其合并,所以@el只包含div中第一个p.backtotop之前的所有内容。

我代码:

@doc = Nokogiri::HTML(open(url))
@el = @doc.css("div")[0]
end

遍历代码片段:

doc = Nokogiri::HTML(code)
stop_node = doc.css("p.backtotop")
doc.traverse do |node|
break if node == stop_node
# else, do whatever, e.g. `puts node.name`
end

  1. 找到你想要的div
  2. 找到你想要的"停止"项,然后找到下面所有的兄弟项。
  3. 删除它们。
例如:

<body>
  <div id="a">
    <h2>My Section</h2>
    <p class="backtotop">Back to Top</p>
    <p>More Content</p>
    <p>Even More Content</p>
  </div>
</body>
require 'nokogiri'
doc = Nokogiri::HTML(my_html)
div = doc.at('#a')
div.at('.backtotop').xpath('following-sibling::*').remove
puts div
#=> <div id="a">
#=>     <h2>My Section</h2>
#=>     <p class="backtotop">Back to Top</p>
#=>     
#=>     
#=>   </div>

下面是一个更复杂的例子,backtotop项可能不在div的根:

<body>
  <div id="b">
    <h2>Another Section</h2>
    <section>
      <p class="backtotop">Back to Top</p>
      <p>More Content</p>
     </section>
    <p>Even More Content</p>
  </div>
</body>
require 'nokogiri'
doc = Nokogiri::HTML(my_html)
div = doc.at('#b')
n   = div.at('.backtotop')
until n==div
  n.xpath('following-sibling::*').remove
  n = n.parent
end
puts div
#=> <div id="b">
#=>     <h2>Another Section</h2>
#=>     <section><p class="backtotop">Back to Top</p>
#=>       
#=>      </section>
#=>   </div>

如果你的HTML比上面更复杂,那么请提供一个实际的样本以及你想要的结果。

相关内容

  • 没有找到相关文章

最新更新