我的代码如下:
file = Nokogiri::XML(File.open('file.xml'))
test = file.xpath("//title") #all <title> elements in xml file
当我尝试:
puts test.uniq
我得到以下错误:
undefined method `uniq' for #<Nokogiri::XML::NodeSet:0x000000011b8bf8>
test
不是数组吗?如果不是,我怎么让它变成一个?
否则,我如何从test
数组中获得唯一的值?
test不是数组吗?如果不是,我怎么让它变成一个?
test
将是NodeSet
:
Nokogiri::XML('<xml><foo/></xml>').xpath('//foo').class
=> Nokogiri::XML::NodeSet
foo = Nokogiri::XML('<xml><foo/></xml>').xpath('//foo')
=> [#<Nokogiri::XML::Element:0x8109a674 name="foo">]
foo.is_a? Array
=> false
foo.is_a? Enumerable
=> true
使用to_a
:
foo.respond_to? :to_a
=> true
然而,这不是必要的,因为它也响应map
, each
,以及我们在迭代数组时期望的所有正常内容,因为它包含Enumerable。根据定义,map
会自动返回一个数组,所以这就是您在评论和问题中想知道的转换。
foo.methods.sort - Object.methods
=> [:%, :&, :+, :-, :/, :<<, :[], :add_class, :after, :all?, :any?, :at, :at_css, :at_xpath, :attr, :attribute, :before, :children, :chunk, :collect, :collect_concat, :count, :css, :cycle, :delete, :detect, :document, :document=, :drop, :drop_while, :each, :each_cons, :each_entry, :each_slice, :each_with_index, :each_with_object, :empty?, :entries, :filter, :find, :find_all, :find_index, :first, :flat_map, :grep, :group_by, :index, :inject, :inner_html, :inner_text, :last, :length, :map, :max, :max_by, :member?, :min, :min_by, :minmax, :minmax_by, :none?, :one?, :partition, :pop, :push, :reduce, :reject, :remove, :remove_attr, :remove_class, :reverse, :reverse_each, :search, :select, :set, :shift, :size, :slice, :slice_before, :sort, :sort_by, :take, :take_while, :text, :to_a, :to_ary, :to_html, :to_xhtml, :to_xml, :unlink, :wrap, :xpath, :zip, :|]
我怀疑uniq
没有实现的原因是很难弄清楚如何测试唯一性。一个非常简单的标签,比如:
<div class="foo" id="bar">
的功能与
相同:<div id="bar" class="foo">
但是明显的to_s
测试将失败,因为它们不匹配字符串相等性测试。
必须对标记进行规范化,以便将它们的参数按相同的顺序排列,然后转换为字符串,但是如果class
参数在第一个标记中是"foo1 foo2"
,而在第二个标记中是"foo2 foo1"
呢?uniq
代码是否必须深入到特定的参数并重新排序?如果标签是一个容器,就像div
一样呢?节点的子节点是否也应该在uniq
测试中考虑?
我认为这是一个我们大多数人都会很快回避的问题,而那些试图定义uniq
的人会学到关于兔子洞的非常宝贵的一课。相反,您可以根据您的特定应用程序自由定义uniq
,因此它对您来说是有意义的。我认为这对Nokogiri的作者来说是一个伟大的设计决策。
please try -
puts test.map(&:text).uniq
请看一个示例代码来演示它是如何工作的:
require "nokogiri"
doc = Nokogiri::HTML(<<-EOF)
<a class = "foo" href = "https://example.com"> Click here </a>
EOF
node = 2.times.map{|n| n = Nokogiri::XML::Node.new('title', doc); n.content = "xxx";n }
node # => [#<Nokogiri::XML::Element:0x4637712 name="title" children=[#<Nokogiri::XML::Text:0x4636efc "xxx">]>, #<Nokogiri::XML::Element:0x4637690 name="title" children=[#<Nokogiri::XML::Text:0x4636218 "xxx">]>]
nodeset = Nokogiri::XML::NodeSet.new(doc,node)
nodeset # => [#<Nokogiri::XML::Element:0x4637712 name="title" children=[#<Nokogiri::XML::Text:0x4636efc "xxx">]>, #<Nokogiri::XML::Element:0x4637690 name="title" children=[#<Nokogiri::XML::Text:0x4636218 "xxx">]>]
nodeset.map{|i| i.text }.uniq # => ["xxx"]