如何使用 Nokogiri 获取第一个元素的文本?



我试图从这个HTML中获得Last sold date的文本:

<td class="browse-cell-date">
    <span title="Last sold date">
        May 2002 
    </span>
    <button class="btn btn-previous-sales js-btn-previous-sales">
        Previous sales (1) <i class="icon icon-down-open-1"/>
    </button>
    <div class="previous-sales-panel is-hidden">
        <span style="display: block;">
            Aug 1997
            <span class="fright">£60,000</span>
        </span>
    </div>
</td>

我试着:

    date = val.search(".//td[@class='browse-cell-date']").children[1]

它给了我我想要的跨度,但在添加.text之后,没有返回任何东西

我会这样开头:

require 'nokogiri'
doc = Nokogiri::HTML(<<EOT)
    <td class="browse-cell-date">
        <span title="Last sold date">
            May 2002 
        </span>
        <button class="btn btn-previous-sales js-btn-previous-sales">
            Previous sales (1) <i class="icon icon-down-open-1"/>
        </button>
        <div class="previous-sales-panel is-hidden">
            <span style="display: block;">
                Aug 1997
                <span class="fright">£60,000</span>
            </span>
        </div>
    </td>
EOT
sold_date = doc.at('span[title="Last sold date"]') # => #<Nokogiri::XML::Element:0x3ffc7e84c35c name="span" attributes=[#<Nokogiri::XML::Attr:0x3ffc7e84c2f8 name="title" value="Last sold date">] children=[#<Nokogiri::XML::Text:0x3ffc7e82bc10 "n            May 2002 n        ">]>
sold_date.text # => "n            May 2002 n        "
sold_date.text.strip # => "May 2002"

doc.at('span[title="Last sold date"]').text.strip # => "May 2002"

可以。

atsearch('some selector').first相似,所以为了方便使用它。atsearch都足够聪明,大多数情况下可以判断选择器是CSS还是XPath,所以我使用它们。如果Nokogiri被骗了,我将恢复使用*_css*_xpath变体之一。

也可以使用:

doc.at('td.browse-cell-date span').text.strip # => "May 2002"
doc.at('td.browse-cell-date > span').text.strip # => "May 2002"

注意:将textsearch, xpathcss方法中的任何一个一起使用都不是一个好主意。这些方法返回一个NodeSet,当您使用它的text方法时,它不会做您期望的事情。考虑这些例子:

require 'nokogiri'
doc = Nokogiri::HTML(<<EOT)
<html>
    <body>
        <p>foo</p>
        <p>bar</p>
    </body>
</html>
EOT
doc.search('p').class # => Nokogiri::XML::NodeSet
doc.search('p').text # => "foobar"

我们经常看到人们这样做的问题,然后需要弄清楚如何将连接的文本分割成有用的内容,这通常是非常困难的。

99.99%的情况下,您希望使用以下map(&:text)从NodeSet中提取文本:

doc.search('p').map(&:text) # => ["foo", "bar"]

但是,在您的使用中,只需使用at,它返回一个Node,然后text将执行您期望的操作。

试试这个

page.search(".//td").children[1].attr("title")

相关内容

  • 没有找到相关文章

最新更新