Nokogiri从html中提取节点



我需要从html中提取节点(不是内部文本,所以我可以保留格式以供进一步的手工研究)。我写了下面的代码。但是由于遍历的工作原理,我在新的html文件中得到了重复的内容。

这是要解析的真正的html。http://www.sec.gov/Archives/edgar/data/1750/000104746912007300/a2210166z10-k.htm

基本上我需要提取Item10和"注册人的执行人员"之间的部分到下一个项目。所有文件中都有项目10,但并非所有文件中都有"注册人执行人员"。我需要获取节点而不仅仅是文本,因为我想保留表,所以在下一步中,我可以解析这些部分中的表(如果有的话)。

示例html:

html = "
<BODY>
<P>Dont need this </P>  
<P>Start</P>
<P>Text To Extract 1 </P>
<P><Font><B>Text to Extract 2 </B></Font></P>
<DIV><TABLE>
<TR>
<TD>Text to Extract 3</TD>
<TD>Text to Extract 4</TD>
</TR>
</TABLE></DIV>
<P>End</P>
</BODY>
"

我想要得到:

html = "
<BODY>
<P>Start</P>
<P>Text To Extract 1 </P>
<P><Font><B>Text to Extract 2 </B></Font></P>
<DIV><TABLE>
<TR>
<TD>Text to Extract 3</TD>
<TD>Text to Extract 4</TD>
</TR>
</TABLE></DIV>
<P>End</P>
</BODY>
"

当出现start_keyword时开始提取。当end_keyword出现时,结束提取。

我需要从一个html中提取多个部分。关键字可以出现在不同名称的节点中。

doc.at_css('body').traverse do |node|
    inMySection  = false
    if node.text.match(/#{start_keyword}/)
        inMySection = true
    elsif node.text.match(/#{end_keyword}/)
        inMySection = false
    end
    if inMySection
        #Extract the nodes
    end
end

在参考了这些文章之后,我也尝试使用xpath来实现这一点,但没有成功:

XPath轴,获取以下所有节点,直到

XPath查找所有后面的兄弟,直到特定类型的下一个兄弟

这不是Nokogiri的问题,而是你的算法。你已经把你的标志inMySection放在你的循环中,这意味着在每一步你都把它设置为false,如果它之前被设置为true,你就输了。

根据您的HTML输入和输出示例,下面的代码片段可以工作:
nodes = Nokogiri::HTML(html)
inMySection  = false
nodes.at_xpath('//body').traverse do |node|
  if node.text.match(/Start/)
    inMySection = true
  elsif node.text.match(/End/)
    inMySection = false
  end
  node.remove unless inMySection
end
print nodes

相关内容

  • 没有找到相关文章

最新更新