c-多次非外部调用XML CharacterDataHandler回调



我正在学习libexpat。我使用API拼凑了这个例子,以获得基本的熟悉度:

代码

#include <stdio.h>
#include <expat.h>
#include <string.h>
#include <iostream>
void start(void* userData, const char* name, const char* argv[])
{
std::cout << "name: " << name << std::endl;
int i = 0;
while (argv[i])
{
std::cout << "argv[" << i << "] == " << argv[i++] << std::endl;
}
}
void end(void* userData, const char* name)
{
}
void value(void* userData, const char* val, int len)
{
char str[len+1];
strncpy(str, val, len);
str[len] = '';
std::cout << "value: " << str << std::endl;
}
int main(int argc, char* argv[], char* envz[])
{
XML_Parser parser = XML_ParserCreate(NULL);
XML_SetElementHandler(parser, start, end);
XML_SetCharacterDataHandler(parser, value);
int bytesRead = 0;
char val[1024] = {};
FILE* fp = fopen("./catalog.xml", "r");
std::cout << "fp == 0x" << (void*)fp << std::endl;
do
{
bytesRead = fread(val, 1, sizeof(val), fp);
std::cout << "In while loop bytesRead==" << bytesRead << std::endl;
if (0 == XML_Parse(parser, val, bytesRead, (bytesRead < sizeof(val))))
{
break;
}
}
while (1);
XML_ParserFree(parser);
std::cout << __FUNCTION__ << " end" << std::endl;
return 0;
}

catalog.xml:

<CATALOG>
<CD key1="value1" key2="value2">
<TITLE>Empire Burlesque</TITLE>
<ARTIST>Bob Dylan</ARTIST>
<YEAR>1995</YEAR>
</CD>
</CATALOG>

生成文件

xml: xml.o
g++ xml.o -lexpat -o xml
xml.o: main.cpp Makefile
g++ -g -c main.cpp -o xml.o

输出

fp == 0x0x22beb50
In while loop bytesRead==148
name: CATALOG
value: 
value:     
name: CD
argv[1] == key1
argv[2] == value1
argv[3] == key2
argv[4] == value2
value: 
value: 
name: TITLE
value: Empire Burlesque
value: 
value: 
name: ARTIST
value: Bob Dylan
value: 
value: 
name: YEAR
value: 1995
value: 
value:     
value: 
In while loop bytesRead==0
main end

问题

从输出中,我安装了XML_SetCharacterDataHandler()的回调似乎被调用了两次CATALOG、CD、TITLE和ARTIST xml标记,然后又被调用了多次YEAR标记——有人能解释这种行为吗?从上面提到的catalog.xml中,我不清楚为什么会有(或可能会有)多个值与任何XML标记相关联。

谢谢。

引文

以上示例代码的基础归功于此网站。

expat解析器可以将文本节点拆分为对字符数据处理程序的多个调用。若要正确处理文本节点,必须通过多次调用累积文本,并在接收到包含标记的"结束"事件时进行处理。

这在一般情况下是正确的,即使在不同的解析器和不同的语言中也是如此——也就是说,在Java中也是如此。

例如,请参见http://marcomaggi.github.io/docs/expat.html#using-通信

XML解析器的任何面向事件的接口的一个常见的首次错误是,期望通过对字符数据处理程序的单个调用来报告元素中包含的所有文本。像许多其他XML解析器一样,Expat将这些数据报告为一系列调用;在进行不同的回调之前,无法知道何时到达序列的末尾。

同样来自外籍人士文件

一个没有标记的连续文本块仍然可能导致对该处理程序的一系列调用。换句话说,如果您在文本中搜索一个模式,它可能会在对该处理程序的调用中被拆分。