我一直在试图找到一个解决方案,在网上搜索,通过许多博客,论坛和网站,我仍然被这个问题困住了。
我有一个像这样的XML源文件:
<?xml version="1.0" encoding="UTF-8" ?>
<root>
<level_one>
<level_two>
#text
</level_two>
<level_two>
#text
</level_two>
</level_one>
</root>
然后,在Java中,我试图以递归的方式解析这个XML文件。这是我的功能:
public void parseXML(Node root, Node parent)
{
if (root.hasChildNodes())
{
NodeList childrens = root.getChildNodes();
for (int i = 0; childrens.getLength(); i++)
{
parseXML(childrens.item(i), root);
}//for
}//fi:root_childrens
else
System.println.out(parent.getNodeName()+"::"+root.getNodeValue());
}
一旦加载了XML文件,我就这样做:
xmlDoc.normalize();
parseXML(xmlDoc.getFirstChild(), null);
好的,这是有效的…或多或少。现在,我得到的响应如下:
root:: //OK
level_one:: //OK
level_two::#text //OK
level_one:: //WRONG: should not appear any more
level_two::#text //OK
level_one:: //WRONG: should not appear any more
root:: //WRONG: should not appear any more
我使用以下库:
import javax.xml.*;
import org.w3c.dom.*;
谢谢你的帮助。
编辑1:供参考
编辑2:如果我改变parent.getNodeName()到root.getNodeName(),我得到以下响应:
#text::
#text::
#text::
...
这是因为您的程序正在显示包含空格的空文本节点,如:"n "
你的xml可能会被这样看待:
<?xml version="1.0" encoding="UTF-8" ?>
<root>[A node that contains "n "]
<level_one>[A node that contains "n "]
<level_two>
#text
</level_two>
<level_two>
#text
</level_two>[A node that contains "n "]
</level_one>[A node that contains "n "]
</root>
这就是节点显示两次的原因。
为了得到你想要的输出,你可以这样写:
public static void parseXML(Node node, Node parent)
{
if (node.hasChildNodes())
{
System.out.println(node.getNodeName());
NodeList childrens = node.getChildNodes();
for (int i = 0; i < childrens.getLength(); i++)
{
parseXML(childrens.item(i), node);
}//for
}//fi:root_childrens
else {
String nodeValue = node.getNodeValue().trim();
if (nodeValue.length() > 0){
System.out.println(parent.getNodeName() + "::" + nodeValue);
}
}
}
将打印:
#document
root
level_one
level_two
level_two::#text
level_two
level_two::#text