使用 Nokogiri 解析内部标签



我无法解析不规则嵌入的html标签。有没有办法从节点中删除所有 html 标签并保留所有文本?

我正在使用代码:

rows = doc.search('//table[@id="table_1"]/tbody/tr')
details = rows.collect do |row|
  detail = {}
  [
    [:word, 'td[1]/text()'],
    [:meaning, 'td[6]/font'],
  ].collect do |name, xpath|
      detail[name] = row.at_xpath(xpath).to_s.strip
    end
  detail
end

使用 Xpath:

[:meaning, 'td[6]/font']

生成

:meaning: ! '<font size="3">asking for information specifying <font
    color="#CC0000" size="3">what is your name?</font> /what/ as in, <font color="#CC0000" size="3">I'm not sure what you mean</font>
    /what/ as in <a style="text-decoration: none;" href="http://somesecretlink.com">what</a></font>

另一方面,使用 Xpath:

'td/font/text()'

生成

:meaning: asking for information specifying

从而忽略节点的所有子节点。我想要实现的是这个

:meaning: asking for information specifying what is your name? /what/ as in, I'm not sure what you mean /what/ as in what? I can't hear you

这取决于您需要提取的内容。如果您希望字体元素中的所有文本,可以使用以下 xpath 进行操作:

'td/font//text()'

它提取字体标记中的所有文本节点。如果您希望单元格中的所有文本节点,则:

'td//text()'

您还可以在 Nokogiri 节点上调用 text 方法:

row.at_xpath(xpath).text

几天我为同样的问题添加了答案。这是一个非常简单的过程。

看看:使用 ruby 将 HTML 转换为纯文本并保持结构/格式

相关内容

  • 没有找到相关文章

最新更新