Nokogiri 的简单 XML 解析示例



我正在尝试获取响应对象的键和值列表,以便将它们转换为哈希,但我在理解Nokogiri时遇到了问题。该 XML:

<?xml version="1.0" encoding="UTF-8"?>
<xml>
<Response>
    <Name>Anonymous</Name>
    <ExternalDataReference></ExternalDataReference>
    <EmailAddress>hi guys</EmailAddress>
    <IPAddress>blahblah</IPAddress>
    <Status>0</Status>
..... (approximately 30 more elements within each response tag)
</Response>
(approximately 75 more response tags in the document)

我的目标是为每个响应获得类似的东西:

Name: Anonymous
ExternalDataReference:
EmailAddress: hi guys
IPAddress: blahblah

到目前为止我的代码:

f=File.open("./stufftoparse.xml")
doc = Nokogiri::XML(f)
puts "#{doc.xpath("//Response").keys} n#{doc.xpath("//Response").values}"

我知道上面的代码不起作用,但我不太明白如何获取响应标签中的元素(我不认为它们是响应的属性,因为它们在自己的 XML 中)。有人可以解释如何做到这一点吗?请注意,我花了一些时间阅读Nokogiri文档,找不到太多与XPATH示例相关的内容。

附加问题:如何将响应分开,以便我有这样的东西?

Response1:
Name: Anonymous
ExternalDataReference:
EmailAddress: hi guys
IPAddress: blahblah
Response2:
Name: Anonymous
ExternalDataReference:
EmailAddress: hi guys
IPAddress: blahblah

如果您分步尝试,解决方案会更容易看到。

示例 XML:

<?xml version="1.0" encoding="UTF-8"?>
<xml>
  <foo>
    <goo>a</goo>
    <hoo>b</hoo>
  </foo>
  <foo>
    <goo>c</goo>
    <hoo>d</hoo>
  </foo>
</xml>

语法//foo选择所有foo元素。

> puts doc.xpath("//foo")
<foo>
  <goo>a</goo>
  <hoo>b</hoo>
</foo>
<foo>
  <goo>c</goo>
  <hoo>d</hoo>
</foo>

Nokogiri 将节点作为NodeSet返回,如下所示:

> puts doc.xpath("//foo").class
Nokogiri::XML::NodeSet

NodeSet是可枚举的;您可以使用eachmap等方法。

> puts doc.xpath("//foo").kind_of?(Enumerable)
true

NodeSet包含两个foo元素:

> doc.xpath("//foo").each{|e| puts e.class }
Nokogiri::XML::Element
Nokogiri::XML::Element

语法//foo/*选择foo元素的子元素:

> puts doc.xpath("//foo/*")
<goo>a</goo>
<hoo>b</hoo>
<goo>c</goo>
<hoo>d</hoo>

要打印元素的信息,请参阅 Nokogiri/XML/Node 文档;您可能需要的两种方法是 nametext

为您提供的解决方案:

> doc.xpath("//foo/*").each{|e|
  puts "#{e.name}:#{e.text}" 
}
goo:a
hoo:b
goo:c
hoo:d

对于你的第二个问题,你实际上是在问:

  1. 对于每个foo元素,获取其子元素
  2. 对于每个子元素,打印名称和文本

为您提供的解决方案:

> doc.xpath("//foo").each_with_index{|parent_elem, parent_count| 
  puts "Parent #{parent_count + 1}"
  parent_elem.elements.each{|child_elem|
    puts "#{child_elem.name}:#{child_elem.text}"
  }
}

相关内容

  • 没有找到相关文章

最新更新