如何用Nokogiri创建一个唯一的数组



我的代码如下:

file = Nokogiri::XML(File.open('file.xml'))
test = file.xpath("//title") #all <title> elements in xml file

当我尝试:

puts test.uniq

我得到以下错误:

 undefined method `uniq' for #<Nokogiri::XML::NodeSet:0x000000011b8bf8> 

test不是数组吗?如果不是,我怎么让它变成一个?

否则,我如何从test数组中获得唯一的值?

test不是数组吗?如果不是,我怎么让它变成一个?

test将是NodeSet:

Nokogiri::XML('<xml><foo/></xml>').xpath('//foo').class
=> Nokogiri::XML::NodeSet
foo = Nokogiri::XML('<xml><foo/></xml>').xpath('//foo')
=> [#<Nokogiri::XML::Element:0x8109a674 name="foo">]
foo.is_a? Array
=> false
foo.is_a? Enumerable
=> true

使用to_a:

将其转换为数组
foo.respond_to? :to_a
=> true

然而,这不是必要的,因为它也响应map, each,以及我们在迭代数组时期望的所有正常内容,因为它包含Enumerable。根据定义,map会自动返回一个数组,所以这就是您在评论和问题中想知道的转换。

foo.methods.sort - Object.methods
=> [:%, :&, :+, :-, :/, :<<, :[], :add_class, :after, :all?, :any?, :at, :at_css, :at_xpath, :attr, :attribute, :before, :children, :chunk, :collect, :collect_concat, :count, :css, :cycle, :delete, :detect, :document, :document=, :drop, :drop_while, :each, :each_cons, :each_entry, :each_slice, :each_with_index, :each_with_object, :empty?, :entries, :filter, :find, :find_all, :find_index, :first, :flat_map, :grep, :group_by, :index, :inject, :inner_html, :inner_text, :last, :length, :map, :max, :max_by, :member?, :min, :min_by, :minmax, :minmax_by, :none?, :one?, :partition, :pop, :push, :reduce, :reject, :remove, :remove_attr, :remove_class, :reverse, :reverse_each, :search, :select, :set, :shift, :size, :slice, :slice_before, :sort, :sort_by, :take, :take_while, :text, :to_a, :to_ary, :to_html, :to_xhtml, :to_xml, :unlink, :wrap, :xpath, :zip, :|]

我怀疑uniq没有实现的原因是很难弄清楚如何测试唯一性。一个非常简单的标签,比如:

<div class="foo" id="bar">

的功能与

相同:
<div id="bar" class="foo">

但是明显的to_s测试将失败,因为它们不匹配字符串相等性测试。

必须对标记进行规范化,以便将它们的参数按相同的顺序排列,然后转换为字符串,但是如果class参数在第一个标记中是"foo1 foo2",而在第二个标记中是"foo2 foo1"呢?uniq代码是否必须深入到特定的参数并重新排序?如果标签是一个容器,就像div一样呢?节点的子节点是否也应该在uniq测试中考虑?

我认为这是一个我们大多数人都会很快回避的问题,而那些试图定义uniq的人会学到关于兔子洞的非常宝贵的一课。相反,您可以根据您的特定应用程序自由定义uniq,因此它对您来说是有意义的。我认为这对Nokogiri的作者来说是一个伟大的设计决策。

please try -

puts test.map(&:text).uniq

请看一个示例代码来演示它是如何工作的:

require "nokogiri"
doc = Nokogiri::HTML(<<-EOF) 
<a class = "foo" href = "https://example.com"> Click here </a>
EOF
node = 2.times.map{|n| n = Nokogiri::XML::Node.new('title', doc); n.content = "xxx";n }
node # => [#<Nokogiri::XML::Element:0x4637712 name="title" children=[#<Nokogiri::XML::Text:0x4636efc "xxx">]>, #<Nokogiri::XML::Element:0x4637690 name="title" children=[#<Nokogiri::XML::Text:0x4636218 "xxx">]>]

nodeset = Nokogiri::XML::NodeSet.new(doc,node)
nodeset # => [#<Nokogiri::XML::Element:0x4637712 name="title" children=[#<Nokogiri::XML::Text:0x4636efc "xxx">]>, #<Nokogiri::XML::Element:0x4637690 name="title" children=[#<Nokogiri::XML::Text:0x4636218 "xxx">]>]
nodeset.map{|i| i.text }.uniq # => ["xxx"]

相关内容

  • 没有找到相关文章

最新更新