我正试图使用Nokogiri从以下代码块中的data-original-title
获取值12:40 PM - 1 Mar 2016
:
<span class="ProfileHeaderCard-joinDateText js-tooltip u-dir" dir="ltr" data-original-title="12:40 PM - 1 Mar 2016">Joined March 2016</span>
我成功到达全球节点:
[#<Nokogiri::XML::Element:0x3ff7899f7b60 name="span" attributes=[#<Nokogiri::XML::Attr:0x3ff7899f9ec4 name="class" value="ProfileHeaderCard-joinDateText js-tooltip u-dir">, #<Nokogiri::XML::Attr:0x3ff7899f9e9c name="dir" value="ltr">, #<Nokogiri::XML::Attr:0x3ff7899f9e88 name="title" value="3:40 AM - 1 Mar 2016">] children=[#<Nokogiri::XML::Text:0x3ff7899f8790 "Joined March 2016">]>]
使用此代码Nokogiri::HTML(open("https://twitter.com/F_Casadei?lang=en")).css(".ProfileHeaderCard-joinDateText.js-tooltip.u-dir")
但我达不到这个特定的数值。
通过将节点视为哈希来访问参数值是惯用的:
require 'nokogiri'
doc = Nokogiri::HTML('<div class="foo"></div>')
doc.at('div')['class'] # => "foo"
而且,就像散列一样,你也可以分配给它:
doc.at('div')['class'] = 'bar'
puts doc.to_html
# >> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
# >> <html><body><div class="bar"></div></body></html>
请参阅文档中的[]
和[]=
"修改节点和属性"。
您可以使用attr方法:
require 'nokogiri'
html = '<span class="ProfileHeaderCard-joinDateText js-tooltip u-dir" dir="ltr" data-original-title="12:40 PM - 1 Mar 2016">Joined March 2016</span>'
doc = Nokogiri::HTML(html)
span = doc.at('span').first
title = span.attr('data-original-title')